第一章 绪论
1.1 选题目的和意义
公安部金盾工程的实施,使公安信息化成为快速发展的跳板,对现代警务机制的建设具有重要意义。随着社会经济的发展,人口、就业和资本的变化直接影响到社会治安状况。经济犯罪的形式也多种多样,日益复杂,使得公安经济调查面临巨大挑战。
经过调研,公安经济侦查部门存在数十万条经济犯罪信息,其中多数信息的采集方式为人工输入,其现有的查询及统计系统大多使用逐级追踪的目录型检索方法,虽然已经具备一定的信息化水平,但由于层级搜索浪费时间和精力,并且没有考虑文本主题的语义性,不具备处理自然语言的能力,导致检索结果准确率低又存在冗余现象,人工筛选检索结果又浪费时间和精力,其本质上还是基于关键词检索方式,这种检索方法已无法满足当前公安工作的需要。因此,公安经济侦查部门建立智能化的信息检索系统,已成为公安基础建设中的一项重要工程。
目前,现有的信息检索机制主要使用关键词匹配来帮助用户检索所需的信息。首先,用户需要在他们的头脑中构思需要的检索内容,并将其表达为不同的关键字,这些关键字通过查询界面提交给检索系统。检索系统将这些关键词与文档进行匹配,根据文档和关键词的匹配程度返回查询结果集,然后用户在结果集中逐渐找到满足其检索需求的信息。这种检索方法在用户提供明确的检索需求时,可以帮助用户快速定位指定的网站或信息。然而,用户提交的检索语句并不总是清晰的。有时,用户不确定如何构造适当的查询来满足他们自己的检索需求,导致出现模糊的搜索目标。由于网站中的同一词汇处在不同的业务环境背景下,被不同的用户使用,表示的含义不同,采用关键词的检索方式容易忽略文档背后的潜在语义导致检索准确率下降,往往无法满足用户的实际检索需求。各大公司的互联网检索引擎,如百度、google,往往针对整个互联网进行数据检索,数据规模过于庞大,返回的千级数量的结果容易造成严重的信息过载。这种检索方法用到公安经济侦查领域会产生大量冗余信息,且不够有语义针对性。因此,对在公安专网环境下的经济犯罪信息数据实现语义上的有效检索至关重要。
...........................
1.2 国内外研究现状
目前,对经济犯罪领域的主题模型和智能检索方面的研究较少,因此,本文从相关领域的主题模型和智能检索现状出发,详细分析了该技术的发展情况和存在的技术问题。
1.2.1 主题模型的现状分析
要实现一个完备的主题模型,需要进行信息采集、数据预处理、文本表示、模型的建模四个步骤。主题模型自动对每篇文档进行分析,发掘文档抽象主题,统计文档中单词的数量,判定主题属于哪些文档,确定每个主题在文档单词中的占比情况。
第三章 融合经济犯罪特征的主题模型设计..................................161.2 国内外研究现状
目前,对经济犯罪领域的主题模型和智能检索方面的研究较少,因此,本文从相关领域的主题模型和智能检索现状出发,详细分析了该技术的发展情况和存在的技术问题。
1.2.1 主题模型的现状分析
要实现一个完备的主题模型,需要进行信息采集、数据预处理、文本表示、模型的建模四个步骤。主题模型自动对每篇文档进行分析,发掘文档抽象主题,统计文档中单词的数量,判定主题属于哪些文档,确定每个主题在文档单词中的占比情况。
最早期的主题模型可以追溯到 1973 年 Salton 提出的 TF-IDF 模型,用于发现文档中每个词语的重要程度,该模型能够区分能力较强的词语,降低文档的维度,但是无法表示词语文档间的关系[1]。在 2003 年,Blei DM,Ng AY,Jordan MI 等学者提出了潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA),它是理论更完善的主题模型。该模型在 PLSA 模型的基础之上,在主题和其包含的特征词中加入了文本主题分布,使数据维度从高维转变为较低的维度[2],并且模型不限制文档集的自身规模,因此更适用于大规模文档集。清华大学吴平博主要研究语言处理的信息内容,在信息检索方面结合主题事件,研究在主题框架基础上智能信息检索的的改进与利用,对信息检索在网络内容上的质量有一定得见解[3]。之后,Blei 等人又提出了一个相关主题模型 CTM,与 LDA的区别在于其利用对数正态分布对主题概率分布采样,其先验参数中包含一个可以描述主题之间相关性的协方差矩阵[4]。2009 年,Petterson 和其他学者使用单词信息作为特征,并定义了一个潜在的“主题”、“单词”分布的先验知识,使得语义上一致的单词能够有近似的主题分布[5]。Andrzejewsk 等学者在 2011 年以 LDA 模型为基础,结合了一阶逻辑推理的方法,改进了 LDA 模型[6]。Templeton 等人于 2012 年提出了句法主题模型 STM,该模型的改进在于,为每个词分配主题时,不但要考虑到“文档”、“主题”概率分布,还要考虑到句法树中父节点的主题类型[7]。Chen Z 和其他学者在 2013 年提出了多领域知识主题模型 MDK-LDA,利用多个领域的先验知识推理新领域的主题模型建模[8]。ChenZ 等人在 2013 年又提出了 GK_LDA 模型来利用与领域无关的通用的知识。具体来说,就是使用了一些词汇间的语义关系,例如同义关系、反义关系和形容词属性,来帮助生成更相关的主题[9]。由于一般的知识都是领域独立的,对于特定领域可能会出现问题。2016 年,尹通提出了一个整合先验知识的主题模型 PLTM。在微博热点话题发现的任务中,采用划分结合层次的混合聚类算法来解决微博主题发现问题[10]。Wang Z , Gu S 等人在 2018 年提出了一种基于 LDA 的计算框架 GS-LDA,用于产品评论数据中的群发垃圾邮件检测[11]。2018 年张祥平,曹步清等人提出一种基于 Word2Vec 和 LDA 主题模型的Web 服务聚类方法,将 Wikipedia 语料库作为扩充源,使用 word2vec 对 Web 服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类[12]。余圆圆,巢文涵等人在 2019 年提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接[13]。
.............................
第二章 基于主题模型的智能信息检索框架设计
.............................
第二章 基于主题模型的智能信息检索框架设计
2.1 经济犯罪信息的智能检索基本思路
2.1.1 经济犯罪智能检索业务分析
本文所讨论的问题是经济犯罪信息的检索问题。经济犯罪类案件类信息主要是由各市局经侦支队及分县局经侦专业队全面采集非法集资、金融诈骗等经济类犯罪的已经立案侦查或已经办结的案件信息。
信息结构的特点主要是信息结构多为长文本类型,表现为一篇文档,字数通常在1000 至 2000 字之间,同时也有少量 300 字以内的文本信息。案件中存在大量的经济类犯罪领域短语,如“伪造印章”、“虚假刷单”、“假冒网警”等。
业务流程的特点主要为经济犯罪的案件侦查需要各局民警在办案时,将包括案件编号、简要案情、受立案时间、案件现状、办案民警信息等的案件信息编写成一篇篇在侦案件文档;在破案后将整个办案的内容和过程加以整理,编写成结案的文档,存储在不同的平台网站中,这类平台多数需要登录后才能浏览信息。在日常工作中,常常需要检索已有的案件内容,来辅助在侦案件的顺利侦破。
2.1.1 经济犯罪智能检索业务分析
本文所讨论的问题是经济犯罪信息的检索问题。经济犯罪类案件类信息主要是由各市局经侦支队及分县局经侦专业队全面采集非法集资、金融诈骗等经济类犯罪的已经立案侦查或已经办结的案件信息。
信息结构的特点主要是信息结构多为长文本类型,表现为一篇文档,字数通常在1000 至 2000 字之间,同时也有少量 300 字以内的文本信息。案件中存在大量的经济类犯罪领域短语,如“伪造印章”、“虚假刷单”、“假冒网警”等。
业务流程的特点主要为经济犯罪的案件侦查需要各局民警在办案时,将包括案件编号、简要案情、受立案时间、案件现状、办案民警信息等的案件信息编写成一篇篇在侦案件文档;在破案后将整个办案的内容和过程加以整理,编写成结案的文档,存储在不同的平台网站中,这类平台多数需要登录后才能浏览信息。在日常工作中,常常需要检索已有的案件内容,来辅助在侦案件的顺利侦破。
2.1.2 目前存在的问题
在对经济犯罪信息结构和业务流程深入分析之后发现了经济犯罪信息的特点,这亦是智能检索需要考虑的问题,其具体体现在经济犯罪案件数据类型多为长文本类型,每个案件通常是一篇文档,由民警办案时手工录入,这使得文档的口语化较为严重,并且文档格式不规范,需要一套完善的文档预处理机制。其次是各个平台需要登录才能访问,缺乏一种适应公安内网环境下的网络爬虫。再次是经济犯罪信息内容的专业程度较高,多包含领域专用词汇,由于通用的检索引擎主要针对关键词进行匹配,检索的准确性有待完善。最后是经济犯罪的领域相关实体数量较多,目前还没有一个合适的概念体系去存储。
在对经济犯罪信息结构和业务流程深入分析之后发现了经济犯罪信息的特点,这亦是智能检索需要考虑的问题,其具体体现在经济犯罪案件数据类型多为长文本类型,每个案件通常是一篇文档,由民警办案时手工录入,这使得文档的口语化较为严重,并且文档格式不规范,需要一套完善的文档预处理机制。其次是各个平台需要登录才能访问,缺乏一种适应公安内网环境下的网络爬虫。再次是经济犯罪信息内容的专业程度较高,多包含领域专用词汇,由于通用的检索引擎主要针对关键词进行匹配,检索的准确性有待完善。最后是经济犯罪的领域相关实体数量较多,目前还没有一个合适的概念体系去存储。
.................................
2.2 基于主题模型的智能检索总体框架结构
本文建立了一种基于主题模型的智能检索方法体系,首先构建主题爬虫,爬取历史文档数据得到原始语料库,利用文本预处理技术处理语料中的案件历史数据,以得到支持模型训练的训练语料集;其次设计合理的主题模型,完成语料文档的训练;再次建立领域本体知识库,实现用户提问的查询扩展;同时设计出经济犯罪智能检索系统,完成整个方法体系的可持续化实施。依据经济犯罪信息特点和业务需要,设计了智能检索方法体系的总体框架,该检索框架主要分为数据封装部分和查询分发部分,接下来对这两部分做简要概述。
数据封装部分。首先针对业务需求获取经济犯罪相关文档,应用文本预处理方法和特征选择技术处理原始文档集。其次,结合领域知识,选定合理的文本聚类算法,对杂乱无章的文档集预先聚类。最后,建立适合的主题模型是本文的重点,对主题模型的优缺点进行分析,选定满足需求的主题模型并加以改进,训练出不同文档的主题特征以创建文档倒排索引。#p#分页标题#e#
查询分发部分。主要由经济犯罪领域本体的查询扩展规则、查询扩展评价规则和查询评分规则组成。查询扩展规则基于经济犯罪本体知识库对用户的查询进行语义扩展,然后扩展评估规则确定最终的查询扩展项,并通过评估领域本体中的扩展查询生成搜索者和评分向量。最后,查询结果评分规则将用户检索日志与评分向量相结合,对结果集中的文档项进行评分和排序,并将最终结果返回给用户。
2.2 基于主题模型的智能检索总体框架结构
本文建立了一种基于主题模型的智能检索方法体系,首先构建主题爬虫,爬取历史文档数据得到原始语料库,利用文本预处理技术处理语料中的案件历史数据,以得到支持模型训练的训练语料集;其次设计合理的主题模型,完成语料文档的训练;再次建立领域本体知识库,实现用户提问的查询扩展;同时设计出经济犯罪智能检索系统,完成整个方法体系的可持续化实施。依据经济犯罪信息特点和业务需要,设计了智能检索方法体系的总体框架,该检索框架主要分为数据封装部分和查询分发部分,接下来对这两部分做简要概述。
数据封装部分。首先针对业务需求获取经济犯罪相关文档,应用文本预处理方法和特征选择技术处理原始文档集。其次,结合领域知识,选定合理的文本聚类算法,对杂乱无章的文档集预先聚类。最后,建立适合的主题模型是本文的重点,对主题模型的优缺点进行分析,选定满足需求的主题模型并加以改进,训练出不同文档的主题特征以创建文档倒排索引。#p#分页标题#e#
查询分发部分。主要由经济犯罪领域本体的查询扩展规则、查询扩展评价规则和查询评分规则组成。查询扩展规则基于经济犯罪本体知识库对用户的查询进行语义扩展,然后扩展评估规则确定最终的查询扩展项,并通过评估领域本体中的扩展查询生成搜索者和评分向量。最后,查询结果评分规则将用户检索日志与评分向量相结合,对结果集中的文档项进行评分和排序,并将最终结果返回给用户。
...........................
3.1 经济犯罪信息的获取与预处理......................................16
3.1.1 经济犯罪信息的爬虫设计.....................................16
3.1.2 中文分词...............................19
第四章 基于主题模型的智能检索方法研究......................................33
4.1 文本聚类方法研究.........................................33
4.1.1 基于 bagging 的聚类算法................................33
4.1.2 聚类的有效性评价................................34
第五章 经济犯罪智能检索系统的设计与实现..................................46
5.1 经济犯罪智能检索系统介绍...............................46
5.1.1 开发环境.................................46
5.1.2 系统数据库设计...............................46
第五章 经济犯罪智能检索系统的设计与实现
5.1 经济犯罪智能检索系统介绍
5.1.1 开发环境
............................
结如今,网络属于飞速发展的时代,大数据和人工智能越来越深入的应用到实际的工程领域中,人们对于信息的渴望与探索促进了信息检索的高速发展。随着数据体量的不断增长,使得用户在平台中检索信息产生困难,不能从适合的平台中找到满意的信息。人们迫切需要一个理解语义的智能化检索系统。所以,从海量数据中挖掘文档的语义信息,使得计算机能够理解用户的需求对目前研究至关重要。主题模型是语义检索的产物,但由于计算机不能按照人类的思维处理信息,所以存在无监督生成主题解释性不强的缺陷。因此,本文从改进主题模型出发,深入研究了基于主题模型的智能检索方法,建立了一套智能检索工作机制,并设计了经济犯罪领域的智能检索系统来验证本课题检索方法的有效性。具体完成的工作内容如下。
重点讨论了主题模型的改进方法,构建了基于经济犯罪信息的主题模型 EK_LDA。选择经济犯罪领域专家知识作为主题模型的先验知识,改善了无监督主题模型的主题偏离实际语义的缺陷,实现半监督性质的潜在狄利克雷分布主题建模,生成了符合经济犯罪特征的文档主题标签。
研究了按语义检索的智能检索方法。首先针对原始语料经过主题模型训练生成的文本主题分布较为稀疏的问题,在主题建模之前先对文档聚类。结合了 Bagging 集成学习思想,改进了传统 k-means 算法,优化了传统 k-means 算法初始聚类中心的选择;之后构建了经济犯罪领域本体,描述各个实体间的逻辑关系,持久化到本地文件中;在检索阶段利用本体识别出查询语句的语义和逻辑关系,重构用户检索条件,发掘出用户真实检索要求;根据查询与文档,查询与用户检索日志的综合匹配率,按照相似度排序结果列表,提高了检索准确率和召回率。
参考文献(略)
研究了按语义检索的智能检索方法。首先针对原始语料经过主题模型训练生成的文本主题分布较为稀疏的问题,在主题建模之前先对文档聚类。结合了 Bagging 集成学习思想,改进了传统 k-means 算法,优化了传统 k-means 算法初始聚类中心的选择;之后构建了经济犯罪领域本体,描述各个实体间的逻辑关系,持久化到本地文件中;在检索阶段利用本体识别出查询语句的语义和逻辑关系,重构用户检索条件,发掘出用户真实检索要求;根据查询与文档,查询与用户检索日志的综合匹配率,按照相似度排序结果列表,提高了检索准确率和召回率。
参考文献(略)