上海论文网提供毕业论文和发表论文,专业服务20年。

数据挖掘技术在税务审计中的应用之计算机研究

  • 论文价格:免费
  • 用途: ---
  • 作者:上海论文网
  • 点击次数:68
  • 论文字数:0
  • 论文编号:el2019080109285119168
  • 日期:2019-06-18
  • 来源:上海论文网
TAGS:
本文是一篇计算机论文,本文详细分析和总结各项数据挖掘技术的优缺点,并给出了每种技术的具体执行流程;对数据离群点检测算法进行了分析,对于每种检测算法阐明了其中存在的优缺点,在一定程度上为第四章节中的数据预处理模块提供了一定的理论基础。

1 绪论

1.1 研究背景及意义
2011 年 7 月,国家审计署刘家义审计长在中国审计学会第三次理事论坛上提出[1],“在国家治理中,国家审计实质上是依法用权力监督制约权力的行为,其本质是国家治理这个大系统中的一个内生的具有预防、揭示和抵御功能的免疫系统,是国家治理的重要组成部分”。
随着市场经济的高速发展和每年 GDP 的增加效率来看,在国家调控经济的大背景下,财务审计监督的社会影响力和社会价值越来越被人重视。
现今社会,信息技术尤其是人工智能技术的飞速发展,使得各行各业在其业务拓展领域中或者技术研究部门中都或多或少的引入了人工智能技术,该项技术随着现代计算机的不断更新和改进,使得几年来很多中小企业在其产品的制造中加入了一些智能元素在里面。而在我国的大型企业中,由于其特有的研发部门的存在会使得开展人工智能技术较早。然而,在我们国家的财务审计的调查中[2],存在信息化水平偏低、数据量的急剧增长、审计方法工具落后以及知识范围有限几大方面的问题,如果诉诸于计算机智能化技术解决这些问题,那么就会使得该问题变得简单。因此采用信息化手段进行审计,构建基于人工智能技术的财务审计新模型,提高审计的效率和质量已经成为当下国家开展市场经济的必然。
利用计算机技术进行相关的审计活动是指审计人员在财务审计过程中,以人工智能技术为手段所完成的一些审计过程和审计结果。而且数据分析技术作为人工智能技术的主要手段,已被各级审计机关广泛利用,并取得了很好的效果。随着审计信息化的不断发展,当前的审计数据分析发展呈现如图 1.1 所示的三个层次[4]:
第一层次:查询型分析。根据审计经验和常规方法,审计人员通过 SQL 等语言或采用开发工具定制查询软件,对数据库中的记录进行访问和查询;
第二层次:验证型分析。审计人员根据自身对财务审计过程中可能会产生的问题进行假设和预先设定,然后采用相应的数学工具构建审计推演模型,完成假设推断和论证。
第三层次:发现型分析。事先不提出假设,而是通过从大规模海量审计数据模型中得出的数据构建基于数据发掘技术的审计模型,具有预测未来审计可能的发展趋势,并为发展潜在的审计威胁奠定基础。
..................................

1.2 国内外研究现状
在当今的大数据时代下,从一群大批量无规则无组织的数据中怎样精确挖掘出商家所需要的信息是现代社会急迫发展的需要,在此情况下,数据发掘理论孕育而生[6-9]。该理论正式提出是在 1980 年在加拿大蒙特利尔举办的国际学术会议Knowledge Discovery in Databases 上所提出[10-12]。然后经过了长时间大规模的应用和集成,该技术被广泛的应用于国防工业、航空航天、智能制造、工业机器人以及相关的工业产业中,所产生的工业附加值也是逐年增长。而且,基于数据发掘理论所形成的的算法也被广大的学者所研究,其中包括有遗传算法、IBM 公司开发的 KDD 商业系统等[13-14]。相关的研究在国内外都有一些杰出的工作,比如:国内在财务审计研究中呈现出一些相关的研究者的研究成果,主要集中于采用数据挖掘技术进行审计数据的处理与内部模式的挖掘[15-16],有以下几个方面:
(1)陈丹萍等[17]研究了基于数据挖掘技术进行在线数据审计的算法,提出了把从审计局获取的海量审计数据进行审查和分析时,存在一定的可改进的空间,当完成改进之后,审计效率大幅提升,解决了在审计中长期存在的质量低下的问题,确保了审计质量。
(2)陈耿等[18]基于工程学的思想研究了怎样把审计数据导入工程解题模式中,其中把工程思维重点导入工程技术中,创造了新颖的审计模式新局面,处理和解决了当下审计中较为矛盾的一点问题。
(3)吕新民、王学荣等[19]基于数据挖掘技术在获取了大批量相关审计数据,再利用数据挖掘技术对其中存在财务问题进行了相关研究,研究表明在当前的财务审计模式中,研究人员进行研究的深度还不够,该领域中还有待于更深一步的研究和数据挖掘。(4)荆霞等《基于数据挖掘的审计数据分析》[20]文章提出了基于数据挖掘的审计数据分析流程,以及应用 DBSCAN 聚类算法查找审计证据的方法。
...............................

2 税收业务与数据挖掘

2.1 税务数据特点
税务数据往往来源于税务管理工作中产生的相关数据,这些数据有的来源于企业自身的财务处,有的来源于国家税务局,而有的则来源于地方税务局。总体来说,这些数据都是由税务机关的日常管理业务的信息数据为基础构成的,从税务审计管理业务特征对税务数据进行分析,主要包含以下几点内容:
(1)易用性
之所以进行税务数据的数据挖掘的初衷就是为了可以更高效地、更简单地使用税务数据,此时要求所构建的模型具有简单性和可操作性,所构建模型的好坏与否直接影响着数据使用的便捷性。尤其针对现阶段网上存在较多的数据源,不同用户对这些数据构建模型的易用性都有很大的要求,因此,易用性也是设计一个高效可重用模型的关键性需求。
(2)安全性
安全性主要针对用户在构建模型的过程中在模型转递以及模型复杂度方面是否做的恰到好处,因为模型较差的泛化性能或者较高的复杂度可能对模型的实际测试使用情况造成较大障碍,在一定程度上不具有安全性,也丧失了模型对于私密性的要求。不法分子甚至会利用所构建模型的漏洞或者泄露的税务数据勒索钱财,也会把某些企业的资料上传网络,这样就会对某些企业的信息的隐私造成泄露,因此安全性需求是在模型构建过程中较为重要的需求指标。
(3)可靠性
可靠性也是考查一个模型的重要指标,尤其针对用户在建立模型过程中可能会产生的软件失效的情况,然而对于软件失效的频率统计是衡量一个系统的关键因素,对于其他诸如系统失效的严重程度、易恢复性程度以及故障可预测性等方面都是较为重要的因素,但是前者是主要因素,后几者为次要因素。
.........................

2.2 税务数据源分析
2.2.1 税务数据的实时性
现如今,在很多重要单位的税务部门都会采用自己构建或者直接购买成熟的税务管理系统执行税务审计方面的工作,该系统可以实时录入税务审计的相关信息,甚至可以完成一些较为复杂的浮点运算,然而这些实时录入的税务管理信息具有密集型的特点,在很多方面都可以体现很多细节的信息,具有较高的密度性、高粒度性以及较高的实时性[25]。因此,在存储这些信息的过程中就会产生一些问题,例如到底要构建一个什么样的较为规范模型存储这些数据才可靠、简洁、安全,或者所存储的数据库应该具备怎样的数据结构和范式,这些都是值得深入思考的问题。因此,本文研究了如何通过读写数据事务来进行的数据访问以及实现数据的在线预处理等,而日程管理流程中产生的数据通常可以较好的反射出纳税企业的税务审计业务的运作情况和企业纳税的历史纪录信息。因此,全部来源于税务管理信息统计系统的纳税实时录入信息的数据是税务软件数据仓库管理的重要数据来源,然而这些未经过数据预处理流程的实时数据在进行数据挖掘时。如果直接使用,则所构建的模型的泛化性能就会较差,而且用该模型测试样本数据不会获得精确的识别结果,因此需要对原始数据进行数据清理、数据去噪声、数据处理等操作,这样才可以在一定程度上提高数据信息的质量,使其可以适应税务审计系统中数据采集模式的数据转换模式,提高数据挖掘的效率和执行效果。
2.2.2 税务数据汇总
所谓税务数据汇总是指对税务审计原始数据进行数据预处理后得出的低相关性的数据信息,其中的数据预处理工作过程包括数据优选、误删除数据的恢复、均值求解、数据求标准差、数据求平方和方差、数据压缩与变换等[26]。在实际的税务审计稽查管理工作中,税务汇总数据包括每月的税负率、存货率、税务缴纳报表、速动比率、平均资产净利率、销售成本率、企业明细报表、财务费用率、管理费用率、资产负债率、销售毛利率、存货周转率、销售费用率以及纳税情况等[27],以下阐述了部分税务汇总数据的具体含义。
............................
3 数据挖掘算法...................................... 16
3.1 决策树算法...................................... 16
3.1.1 ID3 算法.............................................16#p#分页标题#e#
3.1.2 C4.5 算法.....................................18
4 数据挖掘技术在税务审计中的应用................................... 32
4.1 数据预处理............................................ 32
4.1.1 数据异常点剔除........................................... 32
4.1.2 数据相关性分析.......................................... 33
5 总结与展望......................................... 45
5.1 本文总结............................ 45
5.2 未来展望........................................ 46

4 数据挖掘技术在税务审计中的应用

4.1 数据预处理
数据预处理是指对数据源提供的其中含有较多噪声的、所占空间较大的、数据格式不统一等异常数据进行的清理和处理工作。数据预处理要经过以下的过程:首先对数据采用标准差和协方差求解的形式对数据进行清理,其中主要包含两大块的清理工作:对空值的处理和对噪声数据的处理;然后,进行数据之间的相关性分析,找出相关度较大的数据,对其样本数据打上标签,对这些数据进行数据变换,再对变换后的数据进行压缩,最终完成数据预处理的过程,其流程如图 4.1所示。

.........................

5 总结与展望

5.1 本文总结
本文以数据挖掘技术为研究手段,以为现代化税务审计提供新颖的途径为研究目标,综合利用数据仓库技术、模式识别方法、数据分析方法、异常检测理论为研究方法,辅以计算机软件模拟技术在税务审计信息中构建税务稽查审计模型。通过讨论税务数据审计中的数据采集、数据清理、数据转换、数据分析构建税务审计数据库,为前期数据积累打下基础。本论文主要以规范化方法研究为主,辅以案例支撑,以 SPSS 软件为算法执行基础,以决策树分类算法和聚类分析算法为算法执行内核,通过对案例中的 12 种税务审计特征为模型构建要素,对 43 家企业在财务审计过程种可能出现的问题进行数据挖掘研究,并分别在企业纳税诚信情况进行的相应的模型建模,提出将决策树算法和聚类分析算法应用到税务审计模型中的设计思路,构建了一个基于数据挖掘技术的税务稽查审计模型,然后利用辅助案例数据对该模型进行了验证,并给出稽查结果表明的纳税有问题的企业。本文的主要研究结论如下:
(1)对数据挖掘算法、聚类分类分析以及决策树相关算法进行了研究和总结,针对当前税务审计目标中的稽查事务中,实现了决策树算法和聚类算法(基于最近邻的方法和基于 K-means 的方法)在税务稽查审计中的应用,为税务稽查审计选案处理提供了较为可靠的决策支持。
(2)在获取 43 家企业数据的基础上,采用基于决策树分类算法训练的税务稽查审计模型中,在选用 100 个父节点和 50 个叶节点的情况下对数据进行了重复两轮训练,训练平均准确率为 73.1%,测试平均准确率为 78.85%,即测试中的纳税诚实企业和非纳税诚实企业平均正确识别准确率为 78.85%,虽然识别精度不太理想,但是本文探索出决策树算法用于税务稽查审计中的可行性,为之后相关的应用研究埋下伏笔。
(3)基于 K-means 聚类分析算法所构建的税务稽查审计模型中,在第一个簇中和第二个簇中,迭代只进行了 1 次就可以收敛到一个稳定值,其中整体聚类中心相比于第一个簇的距离移动了 0.927,而整体聚类中心相比于第二个簇的距离移动了 1.185,然而两个簇之间的中心距离为 2.892,这说明数据之间偏差较小,收敛到稳定值所用的时间较短,迭代次数较少。在测试中,聚类为 2 的企业个数为13 家,而聚类为 1 的企业数量有 30 家,纳税诚信的企业识别准确率为 91.1%,其中 3 家诚信纳税企业分类错误,错误识别率为 9.1%,非诚信纳税企业的识别准确率为 100%。该识别结果具有一定的优势性,并在一定程度上达到并超越同等研究结果。
参考文献(略)
1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!