返回列表 发帖

利用数据挖掘发现纳税人偷税现象

利用数据挖掘发现纳税人偷税现象
逃税是每个国家税务部门都必须正视和面对的问题,本文着重介绍了通过数据挖掘技术如何实现纳税评估和稽查选案,从而降低稽查成本,提高稽查效果。

随着计算机技术的发展和数据挖掘应用的逐渐成熟,数据挖掘技术引起了越来越多的行业的重视。在国外,政府应用数据挖掘技术发现欺诈行为已经有了30多年的历史,如今,中国的各类政府机关在信息化的进程中也都不约而同的将数据挖掘应用提到了议事日程上来。
世界各地有许多国家每年都会因为纳税人的偷漏税问题而损失大量的财政收入,税务的稽查部门一直以来都致力于解决这方面的工作,这一问题。但是在没有引进计算机工具和数据挖掘工具技术之前,这方面的工作在很大程度上,是依靠专业的稽查人员根据以往的工作经验和某些直觉上的判断来圈定那些不法纳税人的特征,虽然这种稽查选案的结果在初期可能会有很大的帮助,但是随着税务体制的改革,经济的发展,自然而然的引起的税源的增加,税种的增加,这时,政府的税务管理部门在使用以往总结的凭经验和直觉判断的方法,去区分判断那些违法的纳税人,势必会导致产生以下问题:稽查人员的增加,引起稽查成本增大;选案的不科学性,引起稽查效率低下;同时,对于个案稽查过程中,由于没有证据来源,所以增加了个案稽查的时间成本,而且往往是稽查效果也不是十分明显。以上种种问题表明,仅仅依靠定性的研究来辅助政府税务管理部门如何加大监管的工作力度已经出现了很多弊端,借鉴国外的成功经验,使用数据挖掘,对税务管理部门所辖的纳税户进行纳税评估和稽查选案的工作,将会大大提高监管工作的效率,提高稽查工作的效果。
在利用数据挖掘解决纳税评估时,通常我们会考虑以下主要问题:
(1) 现有纳税个体中,如何定义非正常纳税人
(2) 非正常纳税人在税收征管过程中出现了何类问题
(3) 哪些因素可用于评判纳税人的纳税信誉等级
(4) 预测纳税人将来的纳税行为和纳税数量
以上问题都可以通过数据挖掘工具,设计合理的数据挖掘过程来实现。
具体地说,使用数据挖掘进行纳税评估和稽查选案是沿着这样一条思路进行的:首先,通过对以往税收业务的具体工作环节的分析,利用数据挖掘方法总结出纳税评估规则集,然后再利用该规则集对所有的纳税个体进行评估。接下来,我们可以调用现有的税收征管系统,网上外部信息系统、行政管理系统和外部信息系统的数据,如图1所示:


图1 纳税评估系统流程图
在最初的数据集中之前,一般来说,我们需要对大部分的数据作一些比较直观的认识,如图2所示,在数据挖掘的工具软件中,我们使用表格、图形来展示来自不同地方的数据的基本情况。了解了数据的基本情况,我们还要将数据分成几部分,以便用来作为训练模型、检验模型和评估模型的优劣使用。

图2 数据准备过程中拆分数据集的数据流程图

在对数据有了比较概括的了解之后,我们需要通过数据描述和可视化处理,对数据作基础的处理工作,并发现和识别有效的数据。然后我们可以利用聚类分析将不同种类的纳税个体作等级评估,此即纳税评估。
针对我们已经整理好的一部分数据建立数据挖掘选案模型,并利用该分类预测模型对纳税个体进行等级预测,给出具体个体从属于某个纳税等级的概率值。在评估个体的纳税等级过程时,如图3所示,我们可以使用数据挖掘神经元网络、C5.0、分类回归树、Logistic回归等分类方法和某些聚类算法对以往的历史数据作分类或者聚类。这项工作的主要目的是:以此为基础,初步确立纳税评估的等级划分标准的框架。事实上,以往这项工作都是人为的定性标准,每一条标准的合理性是无从审查的,但是,我们利用数据挖掘建立的标准可以利用检验数据来研究它的合理性—模型评估工作:利用剩余数据对建好的模型做客观检验,也就是基于数据本身特征所属的类别,与模型的预测结果比较,来确定标准本身的合理性。据此,我们基本可以对所辖范围内的纳税个体建立初步的等级标准,同时,可以将所有纳税个体归为合适的纳税等级里面去。另外,还可以找出纳税户纳税等级发生迁移的主要原因。

图3 数据挖掘软件的纳税评估建模界面

事实上,任何数据挖掘模型都有它存在的合理性,因此我们要根据目的的不同来选择合适的、适合我们自己使用的纳税评估数据挖掘模型。
对于最后数据挖掘的最后一个环节—模型发布部分,我们可以根据业务部门的不同需求来发布结果。具体地说,我们可能的发布结果大概可以是几类:比如说,我们可以发布一个报告,将我们数据挖掘的整个思路,方法以及最后的图表结果全部整理成一份报告,交给客户;还有就是将数据挖掘模型通过编程,变成一些应用的小程序,只要业务人员将具体的信息输入,然后运行应用程序,即可得到相应的结果;还有可能就是将最后的结果通过网络发布出去,供业务人员从网络上应用。
事实上,税务信息化建设的今天,对我们税务机关的要求不仅仅是高效率的管理意识,同时,也包括建立完善的服务体系的意识。而纳税等级的建立,不仅仅是为稽查选案提供了依据,同时还为找出纳税金额高的大户,以便更好的为他们提供服务提供了基础。如果税务管理人员注意数据挖掘的结果,大家就会看到,事实上,我们80%的纳税金额来源于20%的纳税大户,这条商业企业中客户关系管理的二八定律在我们政府机关中同样适用。
如果我们使用正确的数据挖掘算法,并且归纳出纳税评估的具体等级标准,那么在此基础上,我们可以通过数据挖掘算法对纳税个体做深度挖掘,也就是我们所说的稽查选案。
就稽查选案来讲,我们更多关注的问题主要是:
(1) 哪些个体更有可能产生偷漏税的情况,偷漏税个体的主要行为特征
(2) 税收征管体制中哪些环节会造成偷漏税现象
(3) 依据纳税评估的等级标准,不同级别的纳税个体产生偷漏税情况的概率
(4) 各个税种在收缴过程中,在金额上是否具备很强的关联性
事实上,稽查选案是税务工作中一个永恒不变的主题,但是在不同时期下,它却有着不同时期的特点,比如说,选案个体的属性特征可能会随着产业结构的调整而变化;选案个体偷漏税行为可能会随着征管体制的变化而出现非自愿性漏税行为;税种增加和税收分散化管理,可能会导致管理的“黑子”出现,等等…
因此,利用数据挖掘做稽查选案时,要抓住数据完全可控的环节,层层深入,而不能胡子眉毛一把抓,具体地说,首先在整理数据之前,一定要确定希望达到的最后结果,比如说,我们想最大限度的总结出在新的经济形势下偷漏税个体的属性特征,同时对比那些具有同类特征的纳税个体的偷漏税概率;如果是基于这种目的,我们可以将历史数据分成两部分,利用其中一部分数据对以往出现非法纳税行为的个体作汇总描述,同时对不同的非法纳税作分类和聚类,找出群体中具有相同的特征的个体作归类整理,形成标准的规则集。接下来,利用这部分数据去建立分类和预测的模型,利用另外一部分数据去预测标准的规则集中真正的稽查选案的规则,这样就是逐步建立了稽查选案中选案个体的选择依据,那么模型的合理性和实效性应该是接下来模型评估的工作了。

图4 数据挖掘软件通过发现个体不正常纳税查补税款模型
我们利用剩余一部分数据(称为检验集数据)代入原先建立的模型当中,通过此项结果,我们可以看到此前建立的数据挖掘选案模型的可靠程度,与此同时,我们可以给我们数据挖掘模型的可靠性赋一个值,比如说能以75%的可能性判断出逃税个体,那么模型即为成功的模型,按照类似的这种标准,我们可以最终选定合适的数据挖掘模型。
在模型发布的问题上,我们一般要根据业务人员的需要去选择恰当的图、表或者是数据挖掘报告,还有可能是某些应用小程序等。如果是帮助稽查人员确定稽查名单,可以是以图表形式发布的。如图4界面中展示了上述数据挖掘建模的数据流程和运行模型后的得到的结果图表,从图中可以看出,直观的图表往往对我们的具体业务人员能提供强有力的帮助。
综上两个专题解决方案的具体过程和思路,大家可以看到,数据挖掘的过程其实是将一套标准的思考问题的过程通过计算机等辅助工具来得出我们需要的结果而已,也就是说数据挖掘工作的解决方案就是将每一步过程一个细化的描述,对于税务行业的其他数据挖掘主体同样道理。在我们的解决方案里整个思考过程是沿着这样一条线索来进行的:问题的理解→数据的理解→数据准备→建立模型→评估模型→发布结果。

在税务行业,有很多地方管理部门和软件厂商在致力于这方面的研究,就纳税评估和稽查选案这两个专题而言,我们在中国的地税行业中借鉴国外的成功经验,先走了一步,在今后的过程当中,相信我们会不断的完善它,帮助政府税务部门加强监管力度,同时也希望各级税务管理部门能和我们在互相信任的基础上,深入我们税务行业的数据挖掘工作!

TOP

利用数据挖掘发现纳税人偷税现象] GeB5ifqE.jpg (2004-4-9 15:01, 14.84 K)



图片附件: [利用数据挖掘发现纳税人偷税现象] tl4gHwpd.jpg (2004-4-9 15:01, 45.86 K)



图片附件: [利用数据挖掘发现纳税人偷税现象] dEcPwy46.jpg (2004-4-9 15:01, 55.64 K)



图片附件: [利用数据挖掘发现纳税人偷税现象] y9KWJoCv.jpg (2004-4-9 15:01, 54.49 K)

TOP

好东东,学习学习。

TOP

数据挖掘在生活中确实越来越重要了,但是也有存在的问题就是它不能完全的避免误判.在一次spss公司的培训会上,他们的培训师就这样说的.所以要考虑上误判成本这样的一个因素

TOP

返回列表