上海论文网提供毕业论文和发表论文,专业服务20年。

调查问卷在OCR基础上的识别统计分析系统实现措施探究

  • 论文价格:免费
  • 用途: ---
  • 作者:上海论文网
  • 点击次数:141
  • 论文字数:0
  • 论文编号:el201210311729104853
  • 日期:2012-10-30
  • 来源:上海论文网
TAGS:

第一章 绪论


1.1 课题背景及意义
近年来,随着光学字符识别(OCR)和光学标记识别(OMR)技术在我国的发展,利用电子设备(例如扫描仪或数码相机)检查纸上打印或者手写的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字,即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息。从而显示图像向文本文字的转化[1]。基于光学字符识别(OCR)和光学标记识别(OMR)技术在车牌识别、信封检索等方面已经得到广泛的应用。随着计算机技术的飞速发展,越来越多的工作已经通过计算机技术实现了其自动化,例如邮局分拣系统,银行票据识别系统等。对于用途比较广泛的调查问卷则没有与之很好的结合在一起。尽管有一部分调查问卷转移到了网上,但是大部分的调查问卷还是纸质问卷。调查问卷作为一种反馈顾客需求,提供用户交流的重要手段,使得人们能更好的进行沟通交流。社会多元化的发展使得调查问卷的形式越来越多样化,例如网络调查问卷、市场调查问卷、科普调查问卷等。在众多形式的调查问卷当中,人工的统计的方式仍然占最大比重。在人工统计的过程中由于问卷的数量多导致浪费太多的人力,同时在统计的过程中容易产生错误。而现在对于数据表单的自动统计系统在很多方面都得到了应用,例如银行系统中票据的统计,邮局中信封的统计,考试系统中答题卡的统计系统等。
而在问卷调查中,特殊形式的问卷调查也有所应用。针对于一般的问卷调查利用数据表单影像的处理技术,在对于问卷调查实现自动统计。随着 OCR 技术的发展,对于光学字符的识别技术也越来越成熟,特别是随着手写字符识别技术的成熟,识别复杂度的提高使得越来越多的领域与字符识别结合紧密。但是在识别的过程中 OCR 技术最多的还是应用于国家专业部门,例如银行、邮局等。这样使得 OCR应用范围变的很狭小,而针对这种情况,本课题选择为广大用户所能接受的调查问卷作为研究对象,以其对调查问卷的识别统计和分析实现其自动化。


1.2 国内外现状
OCR 的概念于 1929 年由德国科学家 Tauscher 首次提出,并申请专利,其基本含义是利用光电转换转置对字符图像进行扫描识别,并转化成计算机内码的处理过程。最早对印刷体汉字识别进行研究的则是 IBM 公司的 Casey 和 Nagy,他们采用模板匹配法识别了 1000 个印刷体汉字。早期对 OCR 技术的研究工作以对印刷体数字、英文字母及部分符号的识别为主要目标,如今已逐步发展为涵盖版面处理与分析、表格识别、多文种、多字体、多字号、横竖混排文档内容识别等诸多研究方向。对 OCR 技术的研究可以根据样本信息的规格化程度分为印刷体识别和手写体识别两类,也可以根据结果空间的特点分为西文字符识别、数字识别、标点识别和具有结构化笔划的字符(如中文、日文)识别等类型,从样本信息采集方式的角度还可以分为联机识别和脱机识别等。


第三章 基于XML模板定制与.................................. 11
3.1 调查问卷模板定义........................................................ 11
3.2 XML模板结构.....................................................12
3.3 XML模板查询映射...........................................14
3.4 实验结果及实现..............................................20
第四章 信息提取与字符识别............................................22
4.1 基于XML映射数据库的...............................22
4.2 图像预处理..................................................22
4.3 调查问卷中手写字符特征.................................24
4.4 手写数字识别与存储............................................30
第五章 调查问卷数据信息可视化................................................31
5.1 调查问卷可视化......................................................31
5.2 调查问卷二维数据可视化.......................................33
5.3 调查问卷多维数据可视化................................................33
5.4 调查问卷的平行坐标系可视化聚类分.........................37


第七章 结论


调查问卷的识别,统计,分析作为信息反馈的一种主要形式具有十分广阔的应用背景,利用 OCR 作为其识别基础。在对于识别后的数据利用可视化技术进行显示,用户通过显示的图形图标做出决策。基于以上目的,本课题以科普调查问卷为研究对象,通过利用其 XML 技术,字符识别技术以及可视化技术来实现对于调查问卷的自动识别分析统计。其主要结论概括如下:
(1)利用模板定制结合调查问卷的文件描述,能快速高效的获得调查问卷的识别内容。减少版面对于调查问卷的约束,提高通用性。
(2)利用宽度特征、孔洞特征以及交截特征实现手写数字的识别。在调查问卷图像的识别过程中具有较高识别效率和可行性。
(3)对于调查问卷数据的特点,在其进行可视化显示的过程中,对于数据的多维显示提出利用平行坐标系的方法。同时对于其平行坐标系中存在的重叠现象给出一些方式方法。对于调查问卷中答案的选择取值比较少,重复率比较高的情况加入随机小数进行显示。最后通过利用直接聚类的方式进行划分群组显示。在一定程度上提高调查问卷数据的可视性。

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!