上海论文网提供毕业论文和发表论文,专业服务20年。

组合不变矩及BP神经网络基础上数学公式识别方法探究

  • 论文价格:免费
  • 用途: ---
  • 作者:上海论文网
  • 点击次数:145
  • 论文字数:0
  • 论文编号:el201211010925244865
  • 日期:2012-10-31
  • 来源:上海论文网
TAGS:

1绪论


1.1引言
近年来,伴随着互联网技术的迅猛发展,通过互联网传播及交换信息日益增力口,在此基础上发展起来的数字图书馆和远程教育也逐渐成为热门领域。为了推动这些领域的发展,需要将纸质格式的文档转换成相应的电子格式,从而能够被计算机处理并通过互联网传输[1],而这些文档中不仅包含普通文字、图像和图形,还包含了大量的数学公式。数学公式大量存在于各类科技文献(或是和文献中的文本内嵌在一起,或是独占一行),特别是在许多重要的文献中,由数学公式构成的科技准则常常占据着文献的核心地位。目前主流的OCR (Optical Character Recognition)系统在处理文本方面已经具备很高的精确度和时效,但是在正确处理数学公式方面还不尽如人意,还不能准确无误地识别文献中的数学公式,还没有改变数学公式以图片的形式被存储的现状,从而造成了我们无法对公式加以识别分析,无法依据数学公式对文献进行检索,而公式作为某些文献的核心内容,失去了它就可能毫无意义,大大降低了文献的实用性和科技性。数学公式包含了英文字符、阿拉伯数字、希腊字母以及特殊的符号,使得对它的输入要比普通文本复杂,且速度慢存在一定繁琐性和错误率。
当人们想要证或重新使用数学公式时,只能借助于专门的数学排版工具或数学计算工具依据其规则重新输入,无法解决手动输入的低效率以及实现公式的自动化输入问题。此外,当含有大量公式的文献通过网络传输时,由于公式是按照图象格式存储的,占据极大空间,极大地影响传输速率,因此改变数学公式图象的存在形式,可以节约空间,提高网络的传输速率。基于上述原因人们开始对数学公式识别的研究。数学公式识别是包含了数字图像处理、人工智能技术和模式识别的一个新的研究领域。对它的提取及识别可以解决数学公式存储量大且无法编辑、修改等问题,对于扩展OCR软件的功能,以及引用及验证这些公式有着重要的意义,使得数学公式用于检索、保存、编辑、传输及复用[21从而发挥更为重要的作用。


1.2数学公式自动识别研究现状
数学公式识别始于二十世纪六十年代,自从1968年Anderson'4]提出数学公式识别问题,他给出的数学公式符号的识别方法提供了一个特别好的个案研究。二十世纪七八十年代数学公式识别技术发展缓慢,该领域的工作大部分都侧重于理论的研究。直到八十年代末九十年代初,该领域的热度逐渐增加,研究工作才重新开始被关注。进入九十年代以来,该领域再度升温。Fateman从1994年开始研究关于自动数学公式的处理问题。Blostein和Grbavec[6i于1996年定义了数学公式符号的识别问题,将公式符号的识别分成两个阶段:符号识别及结构分析。每个阶段又包含三个部分:符号识别中的预处理、分割及识别三个步骤;结构分析中的符号间的空间关系的确定、逻辑关系的确定及意义构造,并基于该问题的主要子部分总结了现存工作的一个调査。


3特征选择.....................................18
3.1主成分分析.....................................18 
3.2矩阵的奇异值分解(SVD).....................................19
4基于BP神经网络的公式符号识别.....................................25
4.1BP神经网络基本理论.....................................25
4.2BP神经网络模型设计.....................................27 
4.3BP神经网络的实验分析.....................................31 
5实验结果及分析.....................................36
5.1基于欧式距离的模板匹配法与..................................36
5.2细化和归一化的比较.....................................36


6总结与展望


6.1总结
本文在阅读了大量关于数学么, 式识别资料的基础上,对印刷体数学公式符号进行识别,根据数学公式符号自身的特点和难点,对识别中的关键步骤进行了研究,主要研究工作可以概括为以下几个方面:
(一)对数学公式符号图片进行二值化、细化处理。针对传统的归一化算法存在一定的失真或形变的情形,本文直接略去归一化处理步骤消除部分误差提高识别率。
(二)由于数学公式符号大小及字体多样性不利于识别,所以采用具有平移不变性、旋转不变性、尺度不变性的组合矩不变量进行特征提取。在完成特征提取的基础上,采用SVD或主成分分析进行特征选择去掉冗余信息进一步提高识别率。
(三)由于BP神经网络在印刷体数学公式符号识别领域表现出的潜力,本文釆用此方法进行识别,并与基于距离的模板匹配法进行比较。

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!