企业信誉 常见问题 期刊大全
期刊
投稿邮箱

mlunwen@163.com

服务热线

18516839603

高校学位论文全文数据库建设实践中若干问题的探讨——以山东大学图书馆为例

发表日期 2023-04-12 15:22:00    1021

介绍了学位论文建设实践中遇到的问题,包括文件上传、论文审核、格式转换、系统集成等,并针对这些问题提出了相应的解决方法或建议。

  近年来,数字图书馆蓬勃发展,它是用来描述网络环境下数字化的信息资源体系结构,属于以现代通信与网络技术为基础的信息服务业的范畴。在众多图书馆的数字化过程中,各大高校图书馆更是走在图书馆数字化的前列。其中,建设特色数据库是各高校或科研机构建设数字图书馆的关键任务,它与从数据商购买的电子资源不同,特色库包含了本单位科研或经验历史的精髓,其数据具有更加重要的价值。高校学位论文是学生为申请学位,向学校提交的学术研究论文,较直接地反映了高校或科研机构的科研水平,在高校学生和教师中,具有较高的应用价值。因此,建立高校学位论文数据库,充分提高了学位论文的利用率,是高校图书馆自建特色资源的一个重要方面,具有重要意义。

  l高校学位论文全文数据库的现状

  以山东大学图书馆为例,现有的学位论文电子版全文从2003年开始收集,只针对硕士和博士研究生的学位论文,利用TRS公司提供的学位论文服务管理系统对数据进行管理。由于山东大学是一所综合性大学,学科门类范围广泛,学生人数多。近几年来,每年的学位论文提交量在4000篇以上,由此建立的学位论文数据库,深受广大师生和研究工作者的欢迎。但是无论作为管理者还是使用者,面对如此大量的数据,应用当中:现了很多的问题。学位论文数据库系统的建立,一般包括论文数据的提交,论文的审核和格式转换,合格论文编目,合格数据的发布和检索等过程。

  1.1学位论文系统的结构

  学位论文系统,按照其功能分为以下几个模块:提交数据库,发布数据库,提交检索平台,管理平台;普通用户及管理员针对不同的应用,在相应模块上操作。框架结构见图1。

  
1.2学位论文的提交

  一般的学位论文系统利用TCP/1P通信协议建立服务器和客户端的连接,客户提交学位论文时,需要填写表单,包括姓名、学科、学位、论文题目、关键词、摘要、参考文献等信息,还需要上传学位论文全文文件。

  1.3学位论文的审核

  学生提交学位论文后,管理人员对学生提交上来的数据,从管理界面进行审查,审查合格的数据,进入发布库,如果数据不合格,通知学生本人,要求修改后再审核,直至合格。审核合格的论文,管理人员还要进行编目操作,按照一定的规则,对论文分类并添加唯一编号。

  1.4学位论文格式转换

  提交上来的全文数据,格式不统一。目前,山东大学要求学生提交Word和pdf两种格式,鉴于pdf容量小的优点,在发布页面,提供给用户的是pdf格式的文件。而学生提交的全文数据,Word格式占很大比例,所以管理人员需要对全文数据的格式进行转换。目前山东大学图书馆在进行该项工作时,使用的是acrobat7.0,将Word格式文件转换为pdf格式文件,同时提取整篇论文的前l6页。

  1.5学位论文的发布和检索

  审核合格后,论文的基本信息,包括论文题目、作者、关键词、摘要等就可以发布到检索平台。用户可以利用学号、作者、学科、标题等信息进行检索。

  2存在的问题及建议

  近5年,山东大学在学位论文全文数据库的建设和应用过程中,积累了一些经验,发现了一些问题。有些问题找到了解决办法,有些问题值得进一步探讨。

  2.1提交电子版全文数据的问题

  毕业生提交学位论文,由于上传时间集中,容易造成网络拥堵。比如学生上传全文文件时速度慢,甚至有时系统死机,这些都是由于访问服务器的人数过多造成的。系统在一段时间内处理不了多个请求时,会有提交的文件数据异常的现象,客户端提示已经上传完成,实际全文文件并没有上传成功,服务器只收到了一个空文件。造成这种问题的原闵,一方面是服务器本身硬件配置相对高峰期的要求偏低,不能支持大量数据的同时上载;另一方面,程序本身的设计实现方法也会对上传论文有一定影响。山东大学图书馆的服务器配置已经相对较高,但是论文提交高峰期,服务器同样承受不住,经常出现服务停止的现象。以JSP技术为例,实现文件上载功能时,有两种方法可以使用。一种是对一个请求分派它需要的完整内存缓冲,另一种是内存缓冲在多个请求之间循环分配使朋。经过管理实践及观测分析,使用第一种方法容易}见内存不足的问题,第二种方法可以最大限度地利用内存缓冲,提高内存利用率。

  2.2提交参考文献问题

  参考文献对于科研工作者查找文献来源及研究背景等过程有关键性的帮助。一般的学位论文系统巾都添加了学位论文的参考文献数据库。但是由于一篇硕士或博士毕业论文,包含的参考文献较多,从几十篇到几百篇不等,毕业生往表单当中填写参考文献信息,如果采用逐条信息添加提交的方式,每条参考文献要输入题目、作者、卷期、年份、出版社等信息,工作繁琐,容易出错。TRS提供了一种批量提交参考文献的输入方式,但是该方式对参考文献的标点格式,符号排列等要求较高,稍有不合格的地方便不能正常提交。冈此,设计实现一种方便的具有查重功能的批量提交参考义献的方法十分必要。
 2.3格式转换问题

  全义文件在转换时,一般是将学生提交上来的Word格式文件转为pdf格式,方便系统对这些数据的管理。目前,山东大学学位论文的转换工作是由专职专人完成的,因为没有高效易用的批量转换工具,只能一篇一篇地进行,而且利用acrobat7.0在进行转换时,对于全文当中图片信息较多的论文,经常出现无法转换的现象。有关文件格式批量转换,需要找到一种合适易用的工具实现该功能,以便迅速将新的学位论文数据补充到数据库巾。

  2.4审核过程中的问题

  近年来,山东大学图书馆在数据审核时,出现了一些新的问题。审核过程中出现抽取全文失败是其中之一。学位论文在审核过程中,系统将全文数据抽取出来以后,插入发布库的一个全文字段,该字段的数据类型是document,抽取失败的情况下,插入发布库的该字段为空。根据实例分析,这可能与学生使用的文字软件的版本有关,具体的原因还需结合程序开发人员分析解决。除了此问题,还有审核操作和修改操作同步的问题。每年的论文审核过程当中,经常出现数据不能插入发布库的现象,从数据库检查发现,该篇学位论文已经存在于发布库中,也就是它已经合格了,但是审核管理员看到的状态并非如此,可能是未审核状态。出现这种问题的原因,根据经验分析,应该是管理员已经审核了该条数据,但是审核的同时学生也在修改该条数据,导致系统不能判断数据的状态,没有及时修改此数据为合格数据。

  2.5与其他系统集成问题

  学位论文数据库是中国高等教育文献保障系统(ChinaAcademicLibrary&InformationSystem,简称CALIS)众多项目中的一个,其目的是在“九五”期间建设的博硕士学位论文文摘数据库基础上,建设一个集中检索、分布式全文获取服务的CALLS高校博硕士学位论文文摘与全文数据库。各高校图书馆作为CALLS的成员馆,论文系统除了完成本校论文的正常提交和服务外,还需要与CALIS学位论文中心系统进行交互,向CALIS中心提交加工整理后的学位论文元数据。为了配合CALLS实现集中检索分布式全文获取的功能,现有的学位论文数据库系统,需要实现与CALLS系统的连接。另外还有与其他系统的集成:论文系统需要做一定程度的二次开发,以满足与第三方系统的集成(比如:SFX/Metlab等信息资源整合系统,CALLS其他系统,与OPAC系统集成以实现馆藏电子版学位论文在OPAC系统中的多途径检索及全文获取)。

  3学位论文系统的重要性及前景

  截至目前,山东大学图书馆利用学位论文系统收集到的论文已经达到16000多篇,建设数据库过程中遇到的问题,反映了当前学位论文系统需要改进的一些方面。随着新技术的出现及用户需求的变化,一个系统会逐渐暴露其本身的缺陷,并不断地得到改进和完善。