2基于统计语言模型信息检索原理
对信息检索相关概念及整个的信息检索流程进行了解,是信息检索研究的一个重要前提。统计语言模型作用于信息检索有何影响,主要体现在信息检索的检索排序过程中,故有必要对基于统计语言模型信息检索基本原理作研究。而统计语言模型在信息检索中是如何应用、相比传统信息检索模型有哪些优势,也是本章一个重点研究内容。
2.1信息检索术语及检索流程
2.1.2相关术语与概念
信息检索是一门以计算机科学、数学、统计学、图书情报科学、语言学和认知心理学等为基础交叉性学科。因此,对统计语言模型进行研究,评测检索性能之前,有必要对涉及的一些常见的术语进行论述。
(1)文档和文档集文档(Document)是由非结构化或者半结构化的文本构成的,包含一些描述文档来源、标题等与文档相关的属性信息。为了方便检索,通常会为每篇文档给定一个特定编号,文档是信息检索系统的最基本的检索粒度。文档集(Collection)是指一定数量文档的集合,文档内容用来作为信息检索系统文字分析的"原材料"。文档集对信息检索研究具有非常重要的意义,使得信息检索可以在该范围数据集合内进行量化比较。
(2)査询和査询集查询(Query)是用来描述用户信息需求的。中文Web信息检索评测的査询主题通常包含三个域的内容:"num"、 "title"和"desc",其中"num"是指该査询主题编号;"title"是指查询主题的关键词;"desc"就是Description,采用自然语言对査询主题进行描述。査询集(Topics)是指用户任务的表达,包含一系列査询的集合。一般对检索系统进行性能评测,都需要使用多个査询来综合评测。本文采用SEWM2007中文Web信息检索评测的査询集作为实验的查询主题,编号从TD216到TD285总计70个任务,最终保留了 56个主题并提供答案。
(3)相关性、相关文档和相关度相关性(Relevance)是指文档与Query之间的一种匹配关系,反映了文档满足用户信息需求的程度。相关文档(Relevant Document)是指检索系统根据用户提交的Query从文档集中检出的与査询相匹配的文档,相关文档通常是人工判断来构建的。相关度是对文档与Query的相关程度的一个度量,用来比较不同文档对给定Query的相关性。
(4)评测指标评测指标是通过比较检索系统实际检出的结果文档集和相关文档的标准集,并对其相关性进行量化得到的,评测指标是用来反映检索系统检索性能的。
2.1.1信息检索流程
本文所研究的信息检索可简单描述为:根据用户的信息需求,构建一个查询字符串,提交给信息检索系统,然后系统从相对稳定的非结构化或者半结构化的文本数据集中检索出与用户查询(Query)相关的文档信息,并按照相关度由高到低进行排序,最后将排序后的检索结果返回给用户,也可称为文档检索(DocumentRetrieval)。信息检索包括3个方面的含义:明确用户的信息需求、信息检索的方法和技术、能否满足用户的信息需求。其中,明确用户信息需求即用户查询,是进行信息检索的一个前提条件,相当于我们在进行任务时,先要清楚的了解这个任务的要求,才不至于偏离方向。信息检索的方法和技术是进行信息检索时,为了更好的达到目标,所使用的一种手段,包括信息检索的一些模型和方法。而能否满足用户信息需求,就是对信息检索结果进行评估,看其与用户需求的匹配度,匹配度越高则越接近用户的信息需求。
2基于统计语言模型信息.....................................10
2.1信息检索术语及检索流程.....................................10
2.2基于统计语言模型的信息检索基本.....................................13
2.3统计语言模型应用于信息检索的.....................................14
2.4本章小结.....................................15
3数据平滑技术.....................................16
3.1数据稀疏问题.....................................16
3.2几种常见数据平滑技术.....................................18
3.3数据平滑技术对信息检索效果.....................................19
3.4本章小结.....................................20
4中文分词和中文文本索引.....................................21
4.1中文分词.....................................21
4.2中文文本索引.....................................24
4.3中文分词和中文文本索引在信息检索.....................................25
6总结和展望
6.1总结
本文采用理论研究与实验研究相结合的方法对基于统计语言模型的中文网页信息检索进行研究。通过査找、阅读大量文献资料了解信息检索模型在中文自然语言处理中的理论研究及其应用;并通过实验得出的数据比较分析各种模型在中文信息检索中的性能优劣,更好的论证了统计语言模型在信息检索中所具有的优势。归纳起来,本文的研究工作主要包括以下几点:
1.通过对信息检索进行简单描述,分析了信息检索的整个流程和信息检索研究的背景,包括信息检索评测方面的知识、自然语言处理与信息检索的关系以及在信息检索中的应用,阐述了本文所要研究的两个重要的问题。
2.通过对统计语言模型的发展历程进行描述,了解国内外学者在该研究领域所作的工作,分析研究了统计语言模型的原理及基本模型,同时剖析了向量空间模型、布尔模型和概率模型这三种传统的检索模型的不足之处,并通过实验对比向量空间模型、概率模型和统计语言模型的检索性能,以此突出统计语言模型在信息检索中所占据的优势。
3.对CWT200G数据进行预处理,首先对压缩格式的数据进行解压,然后进行过滤、提取正文,再对处理后的文本进行中文分词,完成分词后的程序大约93G。由于实验是基于Lemur工具箱的研究,而Lemur本身中文处理不够强大,所以在Lemur中集成了中文分词组件,便于进行中文分词,本文采用的是基于词典的分词方法中的双向最大匹配法。