计算机论文哪里有?本文通过阅读大量相关文献,借鉴以往研究者对中文关键词抽取算法的研究,通过实验对比,最终选择 Word2Vec+TextRank 实现档案文本关键词抽取算法。
第 1 章 绪论
1.2.1 档案信息化国内外研究现状
国外的档案信息化技术发展较早,如 2003 年美国空间数据系统咨询委员会在电子文件永久保存方面建立了OAIS(OpenArchival Information System)模型并且颁布标准(ISO14721),OAIS模型旨在为永久文件保存建立一个参考模型和基本框架,以维护数字信息的长期保护与持续可存取[4]。国际上已有相当数量的数字档案馆投入使用并提供线上服务,例如美国数字档案馆应用系统ERA、欧洲委员会信息社会技术第六框架资助的项目Good Practice Guidelines、联合国教科文组织建设的世界电子图书馆项目等。近年来随着语义技术和数据可视化技术的理论研究逐渐趋于成熟出现了一批优秀成果,如SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、日本京都大学的“数字东京”项目等。
国内数字档案建设晚于西方发达国家,目前我国数字档案馆在功能和规模上都在迅速发展。如香港中文大学的 IView 系统是一种基于内容提取的数字视频全内容信息管理平台,如被评为 2018 年“全国示范数字档案馆”的浙江省公安厅数字档案室是开展档案数字复制件文字识别工作的优秀代表[5]。2019 年国家出台新的《档案法》中增设关于电子档案建设的六条专项中“对整个电子文件归档和电子档案管理,利用现代网络技术,通过信息网络技术,促进电子档案的共享共用,对整个档案的数字转型能够提供一个非常好的支持”。目前将数据可视化技术应用于档案管理过程中的方案较少,因此本文从数据可视化的视角进行探讨具有重要的实践价值。
第 3 章 系统需求分析
3.1 系统需求概述
需求分析是项目开发的关键阶段,需要在理解现有业务的基础上,根据实际需求定义问题,并拆分问题进行详细的业务需求分析。为了使开发的系统符合实际需要,在系统开发之前需要对系统各方面的需求进行分析和探讨。档案资源数据可视化系统旨在设计一个基于 Web 的数据可视化平台,供档案馆工作人员根据查档者提出查询档案请求,进行查询、快速定位档案时使用,也供档案馆工作人员进行档案统计和监测档案事业进展情况时使用,主要使用场合和终端设备是在前台档案查询接待的电脑上和办公室档案管理人员电脑上使用。系统只是供给档案馆工作人员使用,所以对系统性能和并发要求并不高,所以对这方面无需过多考虑。主要需求有两个方面,一方面提升档案查询的效率,节约查询时间,这点主要通过查询档案结果关系图和档案关键词词云实现;另一方面对档案资源常用指标进行可视化统计,便于掌握档案事业进展情况。本章主要对档案资源可视化系统的业务流程、功能性需求和非功能性需求进行详细说明。
互联网的飞速发展催生了网上办公,网上办公使办公效率提升,同时产生大量的公文文件。政府机关、企事业单位移交给档案馆的档案数量随之增加,如何从海量档案中快速检索到所需档案是一个研究重点,另外如何快速掌握全省档案事业进展情况是另一个重点。首先,大部分档案都有保密期,如何在未知内容的前提下通过一些已知条件判断检索到的档案是否为查档者需要的档案,另外,查档者检索档案,结果中会出现很多与查询关键字相关的档案条目,如何快速地从这些条目中找出差异,忽略不关心的条目,只关心那些真正需要的条目,这样可以节约查询时间;其次,对于档案管理者,如何在最短时间内获取档案整体统计信息,便于随时掌握档案状态,这是一个重要问题。
第 5 章 系统详细设计与实现
5.1 系统环境搭建
本系统使用 Python 作为后端开发语言,版本为 3.8,开发平台使用 Pycharm2021.1,后端框架 Django 版本为 3.2,MyS QL 版本为 8.0,搜索引擎框架 Whoose 版本为2.7,Jieba 版本为 0.42.1,前端使为 Bootstrap4,图形绘制使用 echarts.js、echarts-wordcloud.js,关键词抽取 TextR ank 使用 sklearn 库,Word2Vec 模型使用 gensim 库。项目开发环境搭建方式如下:
在 Pycharm 下的 Terminal 键入“python manage.py startapp ARCHIVES_VIS”,这样会在 virtualenv 虚拟环境下创建了一个名为“ARCHIVES_VIS”的项目,创建完成之后会生成一个名为“ARCHIVES_VIS”文件夹,该文件夹下是项目的一些配置文件,如 setting.py 下配置静态文件夹 static,数据库,创建的应用等,urls.py 中设置应用路由等,wagi.py 中设置 Web 服务器接口等,还有一个名为 templates 的文件夹,用于放置模板文件,通过“python manage.py runserver”命令启动项目后,通过浏览器 URL“http://127.0.0.1:8000/”便可打开初始化的 Web 界面。
5.2 功能模块详细设计与实现
本系统采用模块化的设计思路,这样做降低了模块间耦合,便于局部调整。按照功能设计,将其分为一下几个模块:数据导入与处理模块、数据存储模块、可视化展现模块,以下分模块详细说明。
5.2.1 数据导入与处理模块实现
数据导入模块是将所需数据导入到系统中,为数据可视化提供所需数据。该模块主要由模板下载和数据导入构成。模板下载是将事先准备好的固定格式的文件存放在项目目录下的/media/export_template/下,在后台模板下载函数中对文件存储路径进行设置,目录由 base_dir=os.path.dirname(os.path.dirname(os.path.abspath(__file__)))设定,模板文件的绝对路径由 file_path=os.path.join(base_dir,'upload','export_template',file_name)确定,定义文件生成器函数 file_iterator(file_path,chunk_size=512),以 open(file_path,mode='rb')读文件的形式读取字节块,然后设置对文件内容进行流式传输,这样可以传输较大的数据量,即 response=StreamingH ttpR esponse(file_iterator(file_path)),并设置为以流的形式下载模板文件 response['Content-Type']='application/octet-stream',这样模板下载的后台就完成了。通过前端页面中的<a href="/index/archives_txt_download"><button type="button" style="width: 100%" class="btn border">档案文本模板下载</button></a>和<a href="/index/archives_catalogue_download"><button type="button" style="width: 100%" class="btn border">档案目录模板下载</button></a>进行下载。数据导入功能在前端页面通过<input type="file" name="file" class="form-control" id="filename">实现文件选择,选择好文件后,利用按钮进行 form 表单的提交,在表单中设置 action="/index/upload_file"和 enctype="multipart/form-data",在 button 中写入单击事件,利用 ajax 技术将模板中上传的数据以 json 格式传递到后台文件上传函数。在url.py中配置好路由path('upload_file',views.upload_file),最后将导入的文件交由视图函数中的 upload_file()函数处理。为了能顺利上传多个文件,增加 forms.py 文件,新建了一个 UploadF ileF orm(forms.Form)类,用来处理视图中 upload_file(request)函数接收到的 request.FILES 文件,当请求方法为 POST 的时候,利用 form=UploadF ileF orm(request.POST,request.FILES)获取上传的文件,当判断 form.is_valid()的值为真时,通过 handle_uploaded_file(request.FILES['file'])处理上传的文件。
第 6 章 总结与展望
6.2 展望
本文虽然完成的档案资源数据可视化系统,但还是存在一定的问题,后续需要对这些问题进行改进:
1)由于在分词中使用的 Jieba 对有些词语的分词不准确,且由于样本不足,没有足够多的实验数据,使得有些关键词的抽取比较困难。
2)在关键词抽取中,由于人工挑选关键词没有固定标准,挑选的关键词存在主观情感的作用,使得关键词抽取中的评价存在误差。
3)由于使用了数据不完整致使档案统计流于表层,未能反映档案管理真实情况,若有足够多的完整样例数据,可视化效果会更好一些。
4)只考虑了档案元数据和档案全文数据,没有考虑其他档案形式,如图片、音频、视频等资料,后续需要考虑其他形式的档案类别。
参考文献(略)