第一章 绪论
1.1 研究背景
21 世纪是计算机网络的时代,互联网已成为全球最大的信息库,而提供信息作为互联网最基础的功能面临越来越严峻的挑战。截至 2010 年底,我国网民数已达到 4.5 亿人,与此同时,网络上的中文信息年增长率已超过了 65%。互联网的不断发展,信息自由度的逐年提高,使得通过网络传播不良信息有了许多可乘之机。这些不良信息不仅仅肆虐于网络上,更是通过各种各样的手段侵入公司,学校等局域网络,隐藏于计算机终端,污染人们的视听。伴随着不良信息的侵入,人们也逐渐认识到这一问题的严峻性,对于如何高效快捷的从大规模数据资源中审计出用户关注的有害信息也就成为了我们所需要考虑的重点。本系统正是在这种背景下研发的。对于用户指定的大量数据信息,我们采用分布式的处理方式,利用层次分析的方法先判断出文本的主题,再分析特定主题下作者的态度倾向性,进而高效快捷的审计出包含不良信息的有害文本。目前在网络上肆虐的有害信息我们认为主要包含以下几种:
1、邪教、反动言论的传播随着互联网络的发展,邪教和反动的言论也从以前的发传单,派送小册子,在各公共场所粘贴信息等,发展到如今的利用互联网络的高效传播来“武装”自己,把网络开辟为另一个没有“硝烟的战场”。
2、色情信息的污染色情信息泛滥是目前网络的最大公害之一,只要是网络存在的地方,没有哪里是可以幸免的,也正是因为网络的“无国界”,造成了色情信息的广泛传播,对我国的网络环境造成了严重的污染和危害。
3、凶杀暴力的宣扬网络上还活跃着这样一股有害的信息,就是对“凶杀暴力”的宣扬,即以一种不健康的方式描述凶杀或暴力的场景,例如:刻画罪犯的形象,引起青少年的崇拜;详细描述犯案方法和细节,引诱人们模仿;深刻描绘有悖于常理的残酷行为和暴力行为,引发青少年认同等等。
总之,互联网络已成为有害信息传播的重要平台和主要方式。这些有害信息已对我们的物质生活和精神生活产生了恶劣的影响和极大的危害。为此,以净化我们的网络为目的,如何防止诸如反动言论、淫秽色情、凶杀暴力等有害信息在互联网络上传播,降低有害信息的危害程度,提高有害信息的识别能力,已迫在眉睫。
1.2 国内外发展现状
要对文本中的有害信息进行识别,就必须在对文章主题和作者态度充分理解的基础上,判断分析出文本的态度倾向性。20 世纪 90 年代后期开始,对于这一方面的研究,已经越来越广泛的受到人们的关注。Pang 和 Lee[1]通过运用 SVM,贝叶斯法,最大嫡分类法等分类方法,分类文本的整体态度倾向性。而通过实验我们可以得出结论:从文本中找出特征对文本的立场进行完整表达是倾向性分类的前提条件。同时,人们是可以判断出文本中某些词的消极或积极属性并将其作为倾向性分类特征属性的。因此,如果在对文本进行态度倾向性分析的时候,能够利用那些带有态度特征的词语也必然会达到很好的分类效果。2003 年,Tumey[2]等在对特征属性较强的名词、动词、形容词、副词人工进行整理的基础上,对待测词汇采用互信息或语义相关的方法判断其语义倾向性,试验结果表明,分类达到了约 83%的准确率。然而,在对文本倾向性进行分类时,特征词所处的语义环境也会对判断文本倾向性产生不可忽略的影响。为此,Tumey[3]按照一定规则,选择了两个连续的词组成短语(其中包括形容词或副词),并分别计算其与“Poor”、“Excellent”之间的互信息值。判断这个短语的倾向性程度就用上述两个值的差来衡量,统计全部差的平均值,从而判断整个文本的倾向性。Pang 和 Lee 2004 年[4]在标注语句主、客观性的时候首次采用了最小切分算法,该算法运用了无向网的概念,将切分算法用在主观语句上,同时忽略了客观性语句,起到了去除噪声和无关词句的作用,分类效果由约 83%增强到约 87%。Marxl 和 Kamps[5]在计算同义词语义相关度的时候,将在 WordNet 中构建的同义词集中两者之间最短可能路径的长度作为度量值,计算各词汇与“bad”的相似度和与“good”的相似度,进而分类文本倾向性。Tsuya Nasukawa 和 Jeonghee Yi[6]通过建立各类型词的情感倾向性规则辞典,对文本的倾向性进行判断。该算法以主题词为核心,再利用辞典确定主题词所有修饰词的情感表达和倾向性,最后判断出主题词的倾向性。试验测试表明,这种方法最高可以达到 95%左右的准确率,而召回率却只有约 20%左右。大多数情况下,一个句子里包含分属于不同观点持有者的多个观点表述。针对这种情况,经过研究 Kim 和 Hovy[7]认为评判值、观点持有者、主题是观点的三个要素。算法为:先将句法分析树从句子中分析出来,找到观点的持有者和表述,特征用特殊节点间的路径表示,并构造最大嫡评价器。对所有观点持有者用上述评价器进行打分,分数最高的就是该给定观点的真正持有者。Namhee Kwon[8]等刚开始建立的是一个只包含明显倾向性的词和短语的辞典,随后,利用同一意思的不同英语短语表达形式对应翻译成汉语的形式是相同的原理构建了“英汉解释表”,完善了辞典,并标注了倾向性。只需要直接运用这个辞典就可以判断语句的倾向性。
第二章 相关技术基础
目前,色情、反动、邪教、暴力等有害信息已引起了我们的密切关注。对于这些拥有特定主题的信息,正是用户所关心并想要掌控的,而用户对于广告、娱乐新闻等非有害信息则不需要去关心。因此,在实际操作中,只要能将包含这些有害信息的文本从海量的电子信息中检索出来,并将其提供给用户即可。这种需求,我们通过采用文本分类(Text Categorization)的方式可以在一定程度上予以满足。我们所谓的文本分类就是由计算机根据指定文本的内容,运用某种计算机自动分类算法,对文本的类型进行判断识别,并将其划分为已定义好的类别。在进行文本主题识别的过程中,我们运用文本分类技术至少需要做以下两项工作:一是如何剔除非有害信息,即如何把对用户而言无用的文本信息(如广告、娱乐信息等)不推送给用户;二是如何将对用户而言有用的文本(包含反动、黄、赌、毒等不良信息)正确分类到相应的已定义好的类别中。而对于分好类的文本,我们还需要通过文本倾向性分析技术对特定主题下的文本进行深度识别,判断出作者对于文本主题的态度倾向性,从而审计出有害信息提交给用户。下面,我们分别介绍文本主题分类和文本倾向性分析的相关技术。
第三章 关键技术研究............. 34-54
3.1 改进的特征选择算法.......... 34-37
3.1.1 遗传算法简介.......... 34-36
3.1.2 CHI-GA 组合特征.......... 36-37
3.2 改进的文本倾向性分析方法.......... 37-45
3.3 支持向量机分类器的构建.......... 45-53
3.4 本章小结 ..........53-54
第四章 系统的详细设计与实现..........54-76
4.1 系统总体设计和框架..........54-57
4.1.1 系统总体设计.......... 54-56
4.1.2 系统总体框架图 ..........56-57
4.2 系统环境 ..........57-58
4.3 系统的功能组成与详细流程.......... 58-62
4.3.1 系统的功能组成 ..........58-59
4.3.2 系统工作流程.......... 59-62
4.4 系统各功能模块的设计与实现.......... 62-75
4.5 本章小结.......... 75-76
第五章 系统测试 ..........76-82
5.1 测试语料 ..........76
5.2 评价体系.......... 76-77
5.3 测试方案.......... 77-78
5.4 测试结果.......... 78-81
5.5 本章小结 ..........81-82
结论
随着互联网络的越来越普及,它覆盖的范围也越来越大,而互联网络传播的信息量每天都在成倍的增长,信息内容也越来越呈现出多样性,不仅有科教,时尚,学习资料,同时也蔓延着靡靡的色情,敏感的政治反动言论以及残酷的凶杀暴力等等各种各样的有害信息。为了能在数据量庞大,数据种类繁多情况下,有效的根据用户的要求审计出有害信息,我们设计开发了有针对性的内容审计系统。本文综述了有害信息的组成及危害、用于识别有害信息的文本倾向性分析技术在国内外的发展和现状。介绍了各种中文分词技术,特征加权算法和文本分类算法;分析了各种特征选择的方法和文本倾向性分析技术;详细介绍了 SVM 支持向量机分类器的构造和学习、训练方法以及 SVM 在文本主题分类和文本倾向性分析中的应用。最后介绍了分类算法的的评价体系。在分析现有特征选择算法的基础上,本文设计了一个基于 CHI-GA 的组合特征选择算法,并在此基础上实现了文本的主题分类;在对文本倾向性分析技术的研究分析上,本文提出了一种基于领域极性词的倾向性短语搭配识别方法,并就识别出来的倾向性特征和 SVM 支持向量机分类器相结合构造文本倾向性分类器。在此基础上,我们针对审计数据量庞大,分析量繁重这一问题,设计实现了基于插件的 C/S 体系结构的内容审计系统,并在中文语料集上进行了测试,取得了较好的审计效果。#p#分页标题#e#
总结起来,本人所做的工作主要有以下五个方面:
1、采用层次分析的方法实现了对未知文本从主题分类到态度倾向性分析的过程。通过对有害信息的介绍,我们发现,包含有害信息的文本基本上可以归结为三类:政治、色情和暴力;在主题分类的基础上再针对相应的文本进行倾向性分析无疑会缩小范围,提高分析的准确性和降低能耗。
2、针对主题分类的特点,本文在分析现有特征选择算法的基础上,设计了一个基于 CHI-GA 的组合特征选择算法,通过试验验证了它的有效性。
3、由于采用层次分析的方法,使得针对某一类文本而构造特定的领域极性词典,从而提高文本倾向性分析的准确性成为了可能。在本系统中我们分别针对政治、色情和暴力这三类文本构建了不同的领域极性词典。
4、针对文本倾向性分析的特点和难点,本文结合现有的文本倾向性分析方法,提出了一种基于领域极性词的短语搭配识别方法,并利用识别出的倾向性短语作为特征训练 SVM 分类器,从而实现文本倾向性识别,并通过试验验证了该方法的良好效果。
5、针对用户要求审计的数据量庞大,数据种类繁多,分析量繁重的问题,我们采用了先进的分布式处理技术,设计了基于插件的 C/S 体系结构,使得系统的整体架构表现为客户端—服务器端—代理端—插件的层次结构。并在此基础上实现了能在大量文本中高效准确的识别出有害文本的内容审计系统。
参考文献
[1] Bo Pang, Lillian Lee. Thumbs Sentiment Classification using Machine Learning Techniques.Proceedings of the Conference on Empirical Methods In Natural LanguageProcessing(EMNLP),Philadelphia,Association for Computational Linguistics, July2002,79-86
[2] PeterD. Tumey, MichaelL. Littman. Measuring Praiseand Criticism: Inference of SemanticOrientation from Association. 2003 National Researeh Couneil of Canada. ACMTransactionson Information Systems, October2003, 315-346
[3] Peter D. Turney. Thumbs UP or Thumbs Down Semantic Orientation Applied to UnsupervisedClassification of Reviews. Proceedings of the 40thAnnual Meeting of the Association forComputational Linguistics(ACL) Philadelphia , July 2002, 417-424
[4] Bo Pang, Lillian Lee. A Sentimental Edueation: Sentiment Analysis Using SubjeetivitySummarization Based on Minimum Cuts. Proceedings of the 42ndAnnual Meeting onAssoeiation for Computational Linguistics ACL 04, July2004, 271-278
[5] J.Kamps and M.Marx. Words with attitude. In Proceedings of the lst Intemational Conferenceon Global WordNet,Mysore India, 2002, 332-341
[6] Tetsuya Nasukawa, JeongheeYi. Sentiment Analysis: Capturing Favorability Using NaturalLanguage Proeessing. K-CAP`03, Florida, USA. Oetober 2003, 70-77
[7] Soo-Min Kim,Eduard Hovy. Determining the Sentiment of Opinions. Proceedings of the 20thintemational conferenee on Computational Linguisties COLING`04. 2004: 1367-1373
[8] Namhee Kwon,LiangZhou, Eduard Hovy, and Stuart Shulman. Identifying and ClassifyingSubjective Claims. In Proeeedings of the 8thNational Conference on Digital GovemmentResearch (dg.o). philadelphia, PA. 2007, 76-81
[9] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制.第三届学生计算语言学研讨会论文集.沈阳:中国中文信息学会,2006,91-100
[10] 姚天防,娄德成.汉语语句主题语义倾向分析方法的研究.第九届全国计算语言学学术会议论文集.北京:清华大学出版社,2007,582-587