1 绪论
1.1 汉字识别的发展与现状
1.1.1 汉字识别研究的目的和意义
人们之间的思想交流是通过语言和文字进行的。社会发展到今天,己把人类带入信息时代。随着计算机技术的发展及计算机的普遍使用,人们已不再停留在用自己的耳朵和眼睛去直接获得这些信息,并用手将信息记录在纸上,而是使用计算机代替人们的简单、重复的劳动,将语言及文字高速自动地输入到计算机中,用计算机对它们进行编辑和整理,保存在磁盘、磁带或其它介质上,可随时以各种方式(例如打印机输出、通过电话线进行通讯、通过显示器输出到荧光屏上等)满足人们的不同需要。因此研究计算机识别文字的目的就是解决文字信息高速、自动地输入计算机的问题,使计算机能方便地进行信息加工处理。汉字识别的研究具有以下的目的和意义在信息处理领域中使用汉字识别技术可以大大提高计算机的使用效率,克服人与机器的矛盾。
随着计算机的发展,计算机进行信息处理的速度越来越高。与此相适应的输出装置的输出速度也大幅度提高,例如激光印刷机每秒钟可以输出 1000 个印刷符号。然而,计算机的输入手段却没有多大的改观,仍然停留在人用手指敲击键盘。这样一来,使计算机在大部分时间里处于闲置状态。计算机的性能越好,人与机器矛盾就越突出。因此,输入的低速度己经成为计算机系统提高使用效率的瓶颈,解决这一问题的出路就在于使计算机能够自动识别汉字。2)汉字自动识别是智能计算机智能接口的重要组成部分。所谓智能计算机就是用计算机代替人类的部分脑力劳动,视觉是智能计算机接受外界信息的重要手段,它使计算机能阅读文字,看懂图形,理解文章。因而,随着资料文献、报表的增加,对汉字识别的需求会越来越大。3)汉字自动识别是办公室自动化、新闻出版、机器翻译中最为理想的输入方法。4)汉字识别后将庞大的黑白点阵图像压缩成机器内部编码,压缩量在 100 倍以上,对提高通讯容量及速度是大有好处的。5)汉字识别丰富和完善了模式识别理论。
手写汉字识别是模式识别中的一个难题,模式的特征和分类都很复杂。对手写汉字识别的研究不仅使模式识别理论与具体的应用相结合,而且推动了模式识别理论的发展。
1.1.2 汉字识别的概述
汉字识别(Chinese Character Recognition, CCR),是利用计算机自动识别写在纸或其它介质上的汉字,它是智能计算机接口的一个重要组成部分,也是汉字高速、自动输入计算机的重要手段。就识别对象而言,汉字识别可分为印刷体汉字识别(PrintedChinese Character Recognition, PCCR)和手写体汉字识别(Handwritten Chinese CharacterRecognition, HCCR)。根据字体的不同,印刷体汉字识别又可以分为单体印刷体汉字识别(Single-font Printed CCR)和多体印刷体汉字识别(Multi-font Printed CCR)。手写体汉字识别,又可根据识别的实时性分为联机手写体汉字识别(On-line HandwrittenChinese Character Recognition)和脱机手写体汉字识别(Off-line Handwritten ChineseCharacter Recognition)。汉字识别的类型大致概括如图:
2 脱机手写体汉字识别................................. 7
2.1 手写体汉字的............................................. 7
2.2 预处理技术 ..................................... 7
2.3 特征提取 .......................................................... 14
2.4 分类器设计....................................................18
3 数学形态学 ............................................................24
3.1 数学形态学....................................24
3.2 数学形态学的基本思想.................................26
4 基于笔划抽取的特征........................................................34
4.1 基于数学形态学提取.................................................34
4.2 几种笔划密度的计算.................................36
结 论
本课题基于数学形态学理论和弹性网格技术,从脱机手写体汉字识别过程中的特征提取环节入手,深入研究脱机手写体汉字识别相关技术,在前人的研究成果基础上,提出了自己的基于统计特征和结构特征的特征提取方法,并综合运用了数字图像处理、模式识别等各种技术,完整地建立起脱机手写体汉字识别系统的理论框架和具体实现方案。总结本文的工作,有以下几点:
1) 根据本系统所采用的识别方法的需求,系统预处理部分采用了常用的二值化和尺寸归一化技术,将汉字统一成64 × 64大小的图像,为后续的特征提取做好准备。实验显示,本文所采用的预处理算法简单,并且对汉字信息损失较小。
2) 笔划特征是一种有效的脱机手写体汉字识别的结构特征,本文提出一种基于无需细化预处理的笔划分解方法,该方法通过数学形态学中的腐蚀、膨胀等运算,采用不同的具有自适应性的结构元素对汉字图像进行笔划分解,并利用弹性网格提取其笔划方向特征和四平面笔划穿透数目特征,并利用 K-L 变换分别对两组特征向量的维数进行压缩,去除冗余信息。最后,将两种特征串行融合作为最后的识别特征。
4) 在分类识别阶段,本文在小类别样本库的基础上,采用距离分类器对融合后的特征进行识别。实验数据显示,该方法综合了统计特征和结构特征的优点,能够取得较好的识别率。
由于课题研究受时间和条件所限,对系统中某些部分并没展开深入的研究,因此课题中采用的算法可能并不是最优的,不可避免的存在问题。建议以后的研究可从以下几个方面进行:
1) 样本库的选择。由于时间有限,本文的识别系统只是针对 21 个大写金融手写汉字进行测试,这使算法和系统的性能考察受到了一定限制。随着研究的深入,可以扩大样本库的规模,这样才能拓宽系统的应用范围。
2) 分类器的设计。分类器也是手写汉字识别领域的一个重要内容,分类器的好坏对整个系统的识别性能有较大的影响。本课题采用了最简单的距离分类器,以后可以考虑与泛化能力和分类效果更好的分类器结合,以提高系统的识别率。
3) 识别字典的制作。字典的表达形式及其制作的自动化程度都会影响到系统的识别能否不断提高和改善识别能力,本课题采取的是静态单模板字典,存储空间和运行时的内存空间小,但其自适应能力差,可以考虑使用动态模板字典或者多模板字典以提高系统的自适应、自组织和自学习能力。