上海论文网提供毕业论文和发表论文,专业服务20年。

基于深度学习的光学字符识别技术研究

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:54
  • 论文字数:44690
  • 论文编号:el2021040219383022019
  • 日期:2021-04-02
  • 来源:上海论文网
TAGS:
本文是软件工程论文,一般情况下,使用计算机进行手写字符的识别工作,然而由于计算机体积较大随身携带不是很方便,满足不了人们日常的使用需求。近年来Android手机的各项硬件在不断提升,计算能力相应的提高,因此在移动端进行手写字符识别功能的开发已经具备一定的条件。本文利用神经网络完成了Android端手写文本的识别,不仅具备PC端的识别功能,而且更便于用户在日常生活中使用。为了完成端到端的文本识别,借用CTC让网络自动学会对齐,即在被预测字符与手写字符之间建立一个准确的映射。以此避免出现制定规则准确率不佳、手动调试用时过长的问题。3.提出了丰富数据集的方法。基于文本行图像书写尺寸的可变性,将已有数据进行多尺度的变换,扩大训练集的数据量达到提升模型训练效果。本文主要研究内容是手写字符文档图像的识别,提高手写字符在识别系统下的准确率。由于低级视觉提示和高级结构知识都有益于字符识别任务,本文提出了一种新颖的卷积架构来利用视觉表示的层次结构。经过不断的发展与完善,卷积神经网络取得了不俗的成绩,充分表明了它的强大之处,由此奠定了它在图像分类领域的地位。卷积神经网络的网络的原理是基于局部特征后从多层综合得到整体特征,这符合视觉上识别的过程。

.....

 

第一章绪论

 

本节阐述字符识别与深度学习的发展历史及两者的研究现状。近年来,越来越多的人开始关注手写字符识别的研究和应用。为了进一步提升手写字符识别的准确率和效率,更多的研究者投入到这个研究领域中,并运用实验论证不同的方法所产生的影响。算法的实现过程主要包括:利用残差块来促进深度网络和快捷连接的训练,以聚合多尺度信息。同时根据书写比例尺的可变性,使用多尺度的文本行图像扩大了原有训练集,进一步提高识别的准确性。最终,将手写字符文本图像识别应用于手机APP。通过实验提高准确率和文本信息数字化效率。相比之下,我国对于光学字符识别的研究起步较晚。上世纪七十年代,中科院自动化所最早研究相关技术。我国对中文字符识别的研究可简单分为发展,应用及完善三个时期。对中文字符识别算法展开研究,摸索总结可用于中文字符算法方案的时期称之为发展期;把算法付诸于实践且尝试应用到日常需求中的时期称之为应用期;为了在不同的场景下顺利使用,提升识别性能的时期称之为完善期。汉字印刷体识别的准确率大于98%,带有瑕疵的文本识别率也达到了95%。除此之外,正确识别手写汉字的概率也能够达到70%。

....

 

第二章相关背景知识

 

2.1卷积神经网络
在此模型的基础之上,1998年Lecun等提出的LeNet-5采用了基于梯度的反向传播算法对网络进行有监督的训练[32]。上述过程也是计算机完成字符识别的过程,因此在OCR问题上的识别模块中特征提取时普遍采用卷积神经网络。作为一个尺寸为超参数的感受野,局部连接空间,但是输入数据的深度与感受野深度必定是一致的。卷积层中输入数据体如何连接神经元由感受野决定,卷积神经网络输出向量的形态和大小取决于三个必不可少的参数,具体介绍如下:(1)深度(depth):作为一个超参数,数值与使用的滤波器的数量取值一致。每个滤波器的作用是在输入数据中寻找一些不同的东西,即图像的某些特征。沿着深度方向排列,感受野相同的神经元集合称为深度列(depthcolumn)或者纤维(fibre)。(2)步长(stride):是指滤波器滑动的数值大小。滤波器每次移动的像素数值由步长决定,常用数值1或者2。其他数值也可作为步长值,但是数值过大具备的实际意义并不大,失去进行此项操作的目的。因为步长过大会导致卷积操作不能够实现减小输出数据体积的初衷。(3)零填充(zero-padding):作为一个超参数,当图像在卷积操作之后数据的尺寸发生了变化,不利于后续网络计算时发挥作用。零填充可以在不增加计算量的基础之上顺利完成后续步骤。

 

2.2循环神经网络
循环神经网络不仅拥有其他神经网络的特性,而且拥有一些其他特点,那就是自身形成循环结构,能够接收自身输出的信息,并将其重新转换为自身的输入信息。它克服了传统神经网络对输入和输出数据的某些限制,成为了深度学习领域中非常重要的神经网络模型。循环神经网络的特性使得神经元的输出可以再次作为输入,这种串联结构的网络能够保留数据之间的依赖关系,非常适合处理与时间序列相关的数据。因此被广泛应用于自然语言处理、机器翻译、语音识别、文字识别等方向。另一方面,即使循环神经网络中的数据长短是不一的,共享参数也同样的适用,这说明不定长的数据序列也可作为循环神经网络的输入。前馈神经网络是一个静态网络,信息的传递是单向的。因为没有记忆功能,前馈神经网络并不能利用网络中全部的信息,只由最近一次输入的信息内容决定。而循环神经网络特有的网络结构使得网络的输出不仅和当前的输入有关,还和上一时刻的输出相关。于是在处理任意长度的时序数据时,就具有短期记忆能力。简单的循环神经网络的模型如2.4所示。

 

第三章基于CRNN的手写字符图像特征提取..................................................................................................19
3.1网络框架介绍..........................................................................................................................................19
3.2特征提取..................................................................................................................................................20
3.3训练集扩容..............................................................................................................................................28
第四章基于深度卷积-残差的手写文本图像识别..............................................................................................32
4.1改进的特征提取网络..............................................................................................................................32
4.2序列标记技术..........................................................................................................................................36
4.3实验设计与分析......................................................................................................................................38
第五章手写文本识别APP的设计与实现..........................................................................................................43
5.1需求分析..................................................................................................................................................43
5.2功能分析..................................................................................................................................................43
5.3系统的设计与实现..................................................................................................................................43

....

 

第五章手写文本识别APP的设计与实现

 

5.1需求分析
在整理大量的文字信息时,为了更简单的处理信息需要把文本信息存入计算机中。以往是通过扫描仪进行操作可能存在不便之处,例如操作复杂且不便于携带。而手机作为日常生活中的常用设备,操作简单无需特别指导。因此直接利用手机实现图像手写信息的识别,则可以有效地提高字符识别的时间效率。本文借助于神经网络,设计了一种手写字符识别的手机APP。在获取手写字符的文本行图像后,通过卷积神经网络提取字符特征,使用循环神经网络进一步对特征序列标记,最终正确识别出手写文本。本文设计的安卓APP操作简单,并且可以高效的识别手写文本行,与其他同类产品相比并不逊色。本章首先对手写字符识别APP进行了需求分析,初步拟定该APP所需的全部功能后,将前两章所提研究方法相结合,利用TensorflowLite模型与解释器实现了一个具有简单图形界面的手写字符识别APP。该APP能够实现端到端的字符识别功能,具有较高的实用性。
软件工程论文范文

 

5.2功能分析
本模块主要负责识别手写文本行图像。过去若想对字符进行识别,为了提高识别的准确率需对图像进行操作,称之为预处理。因为待识别的图像可能存在一些识别不需要的信息,它的存在会增加计算的复杂度或对字符识别的准确率产生影响。因为在采集图像的过程中会存在外界因素影响图像质量,如拍摄角度倾斜、光照和文本摆放角度等不可控因素。图像预处理的存在的目的就是消除这些因素对图像的影响,减轻字符识别过程中不必要的麻烦。图像预处理流程如图5.6所示,主要包括灰度化、二值化、去噪以及图像倾斜校正等操作。灰度化处理之后再进行图像处理和字符识别步骤计算量变得相对较小,提高了效率。灰度化是能够很好的去除与识别字符无关的色彩信息,只留下亮度信息。它主要有最大值法、平均值法和加权平均法三种方法。二值化是对已经被灰度化处理过的图像选取合适的阈值,进一步简化图像内容的同时保留其有效信息。去噪是为了去除图像中与有效信息无关的噪声污染,噪声是由于拍摄机器或者拍摄过程中的不可控因素。
软件工程论文怎么写

.....

 

第六章总结与展望

 

光学字符识别是计算机视觉研究的一个重要领域,由于深度学习的迅猛发展使其研究更进一步。手写字符识别是其中的一个研究方向,由于手写字符的特殊性使得识别难度加大。4.提出将新的特征提取网络架构。残差思想加入到卷积神经网络中,形成混合网络架构以便更好的提取图像特征。5.以安卓手机为平台,设计并实现手写文本行识别APP。虽然上述模型能提高手写字符识别的准确性,但由于学术研究的水平有限并且研究的时间较短,并未对具有复杂背景的文字行进行研究。因此若要在现实生活中更为广泛的应用还需进一步的研究探索。为了达到更完善的应用,将来还是需要进行以下所述研究和探索。(1)本文所构建的模型虽然能够提高手写文本的识别率,但是对于手写字符所存在的粘连情况和相似状况仍需要做更进一步的研究。(2)训练深度神经网络并且数据集规模较大时需要花费大量的时间,对于硬件要求也较高,此类问题需要针对性对网络模型或训练方式进行改进。(3)对于残差网络其他形式与卷积网络结合的研究内容存在不足之处,需要进一步探索。
参考文献(略)
123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!