上海论文网提供毕业论文和发表论文,专业服务20年。

财务报表辨别梯子之设计与实现

  • 论文价格:免费
  • 用途: ---
  • 作者:上海论文网
  • 点击次数:89
  • 论文字数:0
  • 论文编号:el201304101839195326
  • 日期:2013-04-10
  • 来源:上海论文网
TAGS:

第 1 章 绪 论


1.1 问题的背景
随着数据报表的海量信息录入的需求,目前手动录入和处理信息的能力明显的限制了处理信息的效率,以下两项内容也成了处理海量信息方面的热点和不可回避的方面:
1.成本和效率:如何运用科技来提高银行、证券、保险等金融行业的效率,降低风险与成本;
2.服务质量和产品价值:如何运用科技来加强银行、证券、保险等金融行业对客户的服务与提高其服务水平;
基于上面的因素,目前人们开始把视线投射在海量信息的自动录入和获取方面,但是既然是系统处理,就必须有输入才行,为了避开手动输入信息的弊端,自然而然的想到了其他方式的信息输入。而由于类似于数据报表等数据的特殊性,海量性,以及相似性,语音以及文字的方式输入明显的限制了效率,所以以图形,图像的视觉形式作为输入,成为解决手动录入信息的工作效率低的理想办法,而且也具有现实可行性。我们可以通过扫描仪,数码相机等设备把纸质文档转化为计算机可以识别的图像信息,这样如果我们可以在扫描而成的图像中自动提取出文档中的信息,那么对于工作效率的提升将是极其明显的。
而在财务系统的工作当中,处理的表格,文档信息是非常庞大的,所以随着数字图像处理技术的进一步完善,我们的对财务报表的图像方式的自动化处理需求和实现变的越来越急迫,尤其是报表使用者,急切渴望智能财务分析软件的出现,基于以上的需求,市场上也确实出现了很多分析软件,不过一般还是采用手工录入的方法。基于现状,针对纸质报表数据自动化录入和分析的需求,设计并开发一个基于图像的企业财务报表自动识别软件,将扫描的财务报表图像作为系统输入,并自动转换成对应的电子的 excel 表格作为输出,以便于未来智能自动分析的需要,成为可行且有现实意义的项目,可以很明显的提高了生产效率,降低了成本,提高了信息化水平。


1.2 本课题的研究意义
随着计算机处理能力的进一步发展,尤其是人工智能领域的拓展,现实中的各种需求都可能归结为计算机的软件处理。为了代替批量的,相似的,同类的数据的手动输入,例如学生成绩,财务信息,商店的进货报价等等,人们把焦点投射在数字图像信息的自动处理,也就是把计算机的系统的处理输入改为了图像,这样做的优势就是可以快速且批量的处理信息,工作效率的提升是毋庸置疑的。有需求,就有市场。文档信息自动处理系统也是自动识别领域的重要方面。目前市场上比较出名的有所属汉王科技出品的尚书系列和清华文通公司的TH-OCR 系统等,这些软件在各自的处理领域已经相当完善。但是,像本文想要研究的主要方向,即主要侧重点-----手写数字字符的处理,一直没有非常出色的代表作品。这也是我们对基于图像的财务报表数据的自动处理的感兴趣的原因,因为实际上由于行业的范围限制以及规格表格的前提,本文系统研究和处理的难点就是手写体数字字符的提取和识别,这也是目前财务处理市场的迫切需求。
本文在最后一章所实现的《财务报表识别系统》就是基于本文所研究的主要内容和上述需求而开发的,它的实用价值就是希望能把财务数据的录入方式做实质上的改变,即手动录入------图像输入。本系统适用的潜在用户比如企业,税务,银行,政府部门,会计师事务所,其他金融机构对财务数据的自动录入和归档管理有需求的用户。本系统稍作改动扩展之后便能用来处理其他类型的表格文件。财务报表处理者渴求智能财务分析软件的应用,目前市场上出现了很多分析软件,但是一般采用手工录入的方法,所以应用前景很可观,如果按照 5 千元每个软件授权进行定价,年销售 1000 个授权进行预测,经济效益为 500 万元。


第 2 章 数字图像的预处理


2.1 数字图像预处理的内容
因为我们要处理的系统输入是扫描过的表格图像,而扫描而成的图像一般会有一定的倾斜以及由于各种干扰而对数字信号形成的噪声,图像预处理的主要内容就是对图像的某些“失真”情况做还原。这些处理是对图像信息进行分析与提取的前提条件,直接影响信息识别的好坏。其中主要包括:
(1)图像的各种变换;
(2)图像的二值化;
(3)图像的倾斜矫正;
(4)去噪,平滑化。


2.2 图像变换
上述几种阈值二值化的算法的区别其实就是阈值的确定方式,其中整体阈值就是单独依靠像素点的灰度值来选定阈值,局部阈值就是除了像素点的灰度值以外,还要借助于像素点周围局部灰度的特性来确定阈值,而动态阈值选择阈值的方式是在局部阈值选取的基础上,还要与该图像像素点的坐标值相关。几种二值化方法的阈值选择方式不同,也使得处理偏重和效果有所区别。当字符图像干扰比较严重,书写混乱时,可能局部阈值二值化就能取得较为满意的结果,而整体阈值二值化在此时就不实用了。而动态阈值二值化方法计算时间比较长,虽然不太计较图像的质量,但是由于像本文研究的这种特殊文档图像,因为字符和背景区别很明显,所以在处理文字的识别系统中也是不太适用的。可见,几种阈值选择算法的二值化方法,各有擅长,各有利弊。局部阈值算法和动态阈值选择算法在实际使用中通常会在图像的某些位置上产生整体选择所不会产生的失真,所以在图像文字识别中,通常使用整体阈值法。因为二值化是图像处理的通用步骤,已经很成熟,所以本文只做简单介绍。
由于基于表格形式的数据图像的特殊性,在进行字符定位与提取之前必须将表格框线检测出来,并且从原图像中抹掉,进而消除表格框线对表格中的字符提取和识别的不良影响,还可以利用检测到的位置信息为后续的字符定位提供信息。所以我们首先提取单元格的表格线,进而识别表格域里的字符信息。再者,本文研究的主要对象是手写体的字符,由于现实的因素,所以待识字符笔画与框线有重叠的情况是相当的常见的,所以还要研究使用何种方法将二者分离开来,并且要求检测和分离之后不会对后续的字符识别产生严重的影响,这部分内容也是字符识别的难点所在。


第3章 字符信息的提取 ........................21-40
    3.1 概述 ......................21-23
    3.2 提取单元格 ......................23-27
    3.3 单元格域字符的定位与提取 ......................27-36
        3.3.1 对单元格MRCCC 的提取 ......................28-35
        3.3.2 去除MRCCC 边框线 ......................35-36
    3.4 字符分割 ......................36-40
        3.4.1 字符分割算法的提出 ......................36
        3.4.2 简介字符分割算法...................... 36-37
        3.4.3 本文的字符分割算法...................... 37-40
第4章 特征提取 ......................40-45
    4.1 概述 ......................40
    4.2 特征提取的分类与对比...................... 40-42
        4.2.1 结构特征 ......................40-41
        4.2.2 统计特征...................... 41-42
    4.3 特征提取方法介绍...................... 42-43
    4.4 在本文中选用的特征识别方法 ......................43-45
第5章 财务报表识别系统...................... 45-55
    5.1 自动识别处理系统 ......................45-47
    5.2 本系统的模块组成...................... 47-48
    5.3 分类器的设计和模式识别...................... 48-51
        5.3.1 几种模式识别 ......................48-50
        5.3.2 分类器综述...................... 50-51
        5.3.3 本系统采用的分类器 ......................51
5.4 本文系统简述...................... 51-55


结论


字符识别已经是模式识别领域中的一个重要的研究与应用方面,在很多现实的工作环境,例如办公自动化系统,金融、银行系统中都具有很高的实用价值。特别是本文的研究对象——手写体数字字符,出现的场合非容的广泛和普及,例如银行票据,财务报表,成绩单,统计等的很多表格格式的文档中。在本文中,我们首先对系统的输入——文档图像进行必要的预处理进行了介绍和研究,例如图像二值化,倾斜检测与矫正,去噪等等,为后续字符的提取做准备;之后介绍和研究了数字字符的提取与定位,这是本文的主要工作和关键内容,在这里我们在前人的基础上提出了针对单元格提取的 PR 算法和针对单元格域字符的提取与定位的 MRCCC 算法,为后面的特征提取提供条件;随后我们介绍了特征提取方面的技术,该模块也是字符识别领域的重要内容,只有优秀的特征提取才能达到较高的识别率;最后我们在前面知识的基础上设计和实现了相应的实验系统——《财务报表识别系统》,以便检验我们的研究工作和实验结果。#p#分页标题#e#
由于图像信息的自动识别的特殊性,类似如本文实现的系统的输入就是只有图片而没有数据作为参考,所以现在除了目测和判断之外,并没有有效的可以量化的对自动识别的正确与否以及准确率的判断方法,这也是类似 OCR 识别系统的盲点所在。我们只能在字符信息提取和识别之后在对应的 excel 表格中对比结果,来目测识别结果的准确性,需要补充的是,当识别的时候没有找到匹配的模式而拒绝识别的时候,这时候本文系统中一概在结果中以“0”作为结果,这样可以很快的发现没能识别的字符的单元格,尽管以上种种,但是在客观事实上如果识别的准确率很高的话,那么对需要海量录入的数据的统计处理和分析工作的效率的提升都是非常明显的,所以类似本文的研究都是有现实意义的。


参考文献
[1] 谢亮,表格识别预处理技术与表格字符提取算法的研究[D],计算数学,2005
[2] 刘长松,潘世言,一种表格框线检测和字线分离算法[D],电子与信息学报,Vol.24,No.9,Sept.2002
[3] Milan Sonka,Vaclav Hlavac,Roger Boyle 著,艾海舟,武勃等译,图像处理、分析与机器视觉(第二版)中文版[M],人民邮电出版社,2003 年
[4] 林尧瑞,马少平,人工智能导论[M],清华大学出版社,P55-P56,1989
[5] Yi-Kai Chen,Jhing-Fa Wang,Segmentation of single-or/cwgllw/ multiple-touchinghandwritten numeral string using background and foreground analysis,PatternAnalysis and Machine Intelligence[J],IEEE Transactions on,Volume 22,Issue11,Nov.2000 Page(s):1304-1317
[6] Yonggang Wang;Jie Yang;Anew printing measurement method and structurefeature extraction of microscopic dot[J], Fifth World Congress on IntelligentControl and Automation,2004.WCICA 2004,Vol4,2004,pp:3658-3661
[7] Dell Zhang;Mao,Robert; Extracting community structure features for hypertextclassification[J],Third International Conference on Digital InformationManagement,2008.ICDIM 2008.13-16 Nov.2008,pp:436-441
[8] Gorman J.T. Optical Character Recognition:An adaptive algorithm[J].Proc.ComPuter Science Discipline Seminar Conference(CSCI3901),2000
[9] 文颖,数字-字符识别及其应用研究[D],上海交大博士学位论文,2009.05
[10] Lee S.W. Off-line recognition of totally unconstrained handwritten numeralsusing multilayer cluster neural network[J]. IEEE Trans.Pattern Anal.MachIntell.18(6)(1996),pp:648-652

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!