第一章引言
1.1背景
在互联网发展初期,信息量少,查找方便。然而随着计算机的普及,互联网迅猛发展和Web的爆炸式增长,在巨大信息量中,用户査找信息,犹如大海捞针,搜索引擎恰好解决了这个问题。自1994年第一个搜索引擎诞生起,搜索引擎功能越来越强大,越来越贴近用户的实际需求。搜索引擎是指按一定的策略在互联网上搜集、发现信息,对信息进行理解、提取、组织和处理并为用户提供检索服务,从而起到信息导航目的[1,2,3]。第一代搜索引擎以雅虎和搜狐为标志,通过人工进行分类。第二代搜索引擎建立在超链接的基础之上,通过Crawlers抓取,以google和百度为代表。目前文本搜索已经趋向成熟,从本地的文件搜索到互联网上信息的搜索,基于文本的的搜索己被用户广泛应用。数学是自然科学的基础,数学信息广泛存在于各种文献资料中,在教育教学和科学研究中起着非常重要的作用。
人们的日常生活也与数学息息相关。然而对于-数学信息内容,现有通用搜索引擎仅仅限于作者姓名、文章内容和定理关键字等文本搜索。随着信息化的普及,用户在网络上活动越来越多,因此对搜索引擎需求越来越高,希望能够搜索引擎能够搜索公式。随着互联网和数字图书馆的发展,包含数学公式的文档被存储在计算机中。Web技术对数学公式的输入和显示支持简单,图片是Web中显示数学公式最常用的方式,起初用户采用MathType、Microsoft Equaltion等公式编辑器生成公式,再将公式转化为图片嵌入到Web文档中,这些文档只是机器可读的,而不是机器所能理解的,缺乏灵活性和扩展性,基于Web的数学活动就无法正常进行。随着基于XML的数学标记语言的标准化,越来越多的文档中开始采用MathML[4]、 OpenMath[5]、 LaTeX[6]和Infix形式描述和存储数学公式。由于数学公式比文字具有更强的表达力,更能表达一个概念和结论,而目前Web技术对数学公式的支持趋于多样化,基于Web的数学编辑软件[7]应运而生,用户可以通过Web发布、获取和管理数学公式,Web上的数学公式相关的内容也在迅速积累和扩展,为数学公式的搜索提供了数据源。
1.2研究现状
近年来,与数学公式相关信息内容搜索己经逐步成为计算机技术的研究热点,目前能够搜索数学公式等相关内容的的搜索引擎有德国雅各布大学MathWebSearch美国自然科学基金项目MathDex[12,13,14]或DLMFSearch[15,16,18]、 leActiveMath和Springer的LaTeXSearch[22,23]等,这些项目重点是数学公式搜索各个部分科研的攻坚,如如何构建输入公式搜索页面和建立搜索查询语言,如何建立和管理公式索引,相似度的计算和排序算法等。数学爬虫中识别提取数学公式和自动分类存储还未明显成为重要的研宄课题,在国内,也有一些研究人员从事着相关研宄,如华中科技大学的MRS(Math RetrievalSystem)[24],东北大学的基于MathML的公式检索系统[25]等,无论理论还是实 ―践上目前还不完善。
第三章 Web中公式描述..........................11
3.1LaTeX/TeX..........................12
3.2MathMI..........................13
第四章公式特征提取..........................22
4.1基于XML数学公式提取..........................22
4.2基于LaTeX数学公式提取..........................27
4.3基千Infix数学公式提取..........................29
4.4 Office Word数学公式提取..........................32
第五章 MathCrawler系统..........................40
5.1MathCrawler设计..........................40
5.2系统实验..........................42
第六章总结和展望
随着信息技术的发展,特别是计算机的普及和互联网应用的发展,用户曰益依赖互联网,用户更多的日常活动和工作学习都是在互联网上完成的。数学公式作为用户活动不可缺少的工具,数学公式在Web上的应用也越来越广泛,致使数学公式相关的内容在Web上的迅速积累和扩展。用户在Web上进行数学公式的发布、获取和管理数学公式活动,需要数学公式搜索引擎的支持。数学公式搜索引擎第三代智能化搜索引擎的研究课题之一。而基于数学公式的爬虫是数学公式搜索中极其重要的一部分,其质量的好坏直接影响着数学公式搜索的功能和性能。
本文的工作重点是对基于数学公式爬虫的研宄,其涉及到数学公式的识别提取、存储和系统设计。目前,数学公式的识别研究已经取得相当大的进展,但对实际的应用还存在巨大的差距,特别是目前的识别技术无法应用到数学公式交流和搜索上。本文对数学公式识别研宄中可交流和搜索的数学公式的识别做了有针对性的研宄工作,重点放在Web文档中XML格式、LaTeX格式、Infix格式以及Office系列公式等格式的提取上。这些问题是数学公式搜索引擎爬虫系统中最重要的部分,解决这些问题利于数学公式的搜索功能的完善,促进数学公式转向实际应用中。在研究基础上,以开源软件Nutch为系统架构设计了数学爬虫系统MathCrawler, MathCrawler有良好的系统架构,可以在互联网上抓取含有数学公式相关内容的文档并提取出数学公式,实验表明系统有良好的性能,可以较准确地获取数学公式。