Box-Cox Transformation Principle and Its Role in the normal distribution of financial ratiosBox-Cox变换原理及其在财务比率正态分布中的作用
摘 要:对上海深圳交易所1998~2002年1 100余家公司5 571份年报12个财务比率的综合研究揭示,绝大多数财务比率不服从正态分布且不易变换到接近正态。正态变换实证代写财务会计论文过程表明:原始财务比率数据经行业划分、剔除污染样本后再进行Box-Cox变换的的正态变换效率最高,可使绝大多数财务比率接近正态分布,但仍有少数比率无法正态化。
关键词:财务比率;正态分布;Box-Cox变换
Box-Cox Transformation Principle and Its Application in NormalDistribution of Financial Ratios
Abstract:Based on the research of 12 financial ratios of more than 5 571 annual reports from 1 100 listed com-panies (Shanghai Stock Exchange and Shenzhen Stock Exchange) in the years of 1998~2002, this paper con-cludes thatmostof the financial ratios are not normal distribution and the level of normality can be highly promot-https://shlunwen.org/shlwfabiao/caiwuhuijibiyelunwen/ed through data cleaning and data transformation (such as Box-Cox transformation) on the basis of the industrysamples. The normal transformation process shows that a few financial ratios can not be normalized
.Key words:financial ratios; normal distribution; Box-Cox transformation
在上市公司财务报告分析领域,定量分析模型很早就用于公司财务困境的预测研究,如Fitzpatrick(1932),Beaver(1966),Altman(1968)等人使用了单变量或多变量分析法(multivariate approach)。不过,这些方法也存在一些明显的局限,例如该方法的前提,组内分布为正态分布并且组间协方差矩阵相等在现实中较难满足。1965年Horrigan第一次对财务比率的统计分布、多重共线性、时序相关性以及稳定性进行了初步考察并指出:“财务比率趋向于正态分布,但经常有偏”。在他之后各国学者在对财务比率分布特性研究的同时,也对导致财务比率偏离正态分布的影响因素进行了分析,并探讨使其变换到接近正态性的方法。在我国,尽管财务比率在定量分析模型中广泛应用,但尚缺少相应的财务比率统计分布特性研究。 Box-Cox变换的原理设财务比率数据符合线性模型Y= Xβ+ε。理论上已经证明比例变换、幂变换以及对数变换不改变原来数据结构。常用的平方根及对数变换有时效率不够,为此可以使用经过修改的幂变换Box-Cox变换来改进数据的正态分布特性。一般变换过程如下:记W(λ) =W1(λ)W2(λ)┇Wn(λ)= Xβ+ε,有Wi(λ) =(Yλi-1)/λ,λ≠0lg(Yi),λ=0 i =1,2,…,n limλ→0Wi(λ) =limλ→0Yλi-1λ=lg(Yi)上式在Y>0时是连续的,它可进一步修改为记V(λ) =V1(λ)V2(λ)┇Vn(λ)= Xβ+ε′ Vi(λ) =(Yλi-1)/λ.Yλ-1 λ≠0.Ylg(Yi) λ=0 .Y=nY1Y2…Yn= (Пni=1Yi)1/n为Y1,Y2,…,Yn几何平均。为求得参数λ,需要解以下似然方程: f(V1(λ),V2(λ),…,Vn(λ),β0,β1,…,βp-1,σ2, λ) =12πσ2ne-[V(λ)-Xβ]t[V(λ)-Xβ]2σ2上式求导并取对数得 lg[f(V(λ),b,^σ2,λ)] = - n2lg(2π)-n2lgRSS(V(λ))n- n2RSS(V(λ))[V(λ)-V^ (λ)]t[V(λ)-V^ (λ)] = - n2lg(2π)-n2lgRSS(V(λ))n-n2∝ - n2lgRSS(V(λ))nRSS(V(λ))=[V(λ)-V^ (λ)]t[V(λ)-V^ (λ)]为V(λ)的残差平方和。根据置信水平可以确定λ的95 %置信区间,获得 Lmax(^λ)-Lmax(λ) <12χ2(0•05) =1•92χ2统计量自由度为1,^λ为λ的极大似然估计量。图1展示^λ与似然函数值关系。图中标出了似然值极小时置信水平95 %的有效变换的^λ取值区间。 图1 Box-Cox变换^λ与似然函数值关系#p#分页标题#e#
2 非正态分布财务比率向接近正态变换研究任一公司的截面财务数据本质上均为多维变量(财务比率),但由于多元正态分布的复杂结构以及在实际操作中,以多元分布的边缘正态分布来近似联合正态分布也有足够好的精度,故财务统计模型均使用单变量分析方法,不使用多维联合正态分布,也就是说视各个财务比率为相互独立的随机变量,研究各个财务比率的分布特性。
2.1 财务比率选择本文选择了与资产负债表和损益表有关的12项财务比率,见表1。表1 12项财务比率变量及变量名财务比率主营业务利润率投资收益比率净资产收益率每股净利润应收帐款周转率存货周转率总资产周转率流动比率资产负债率流动负债率净资产比率每股净资产财务比率变量名X1X2X3X4X5X6X7X8X9X10X11X12
2•2 分行业的财务比率的正态分布检验2.2.1 原始数据本文按照深圳证券交易所对上市公司的分类,将全部上市公司分成22个行业,并采集1998~2002年间5年年报的全部数据,构成22个行业财务比率样本。计算行业描述性统计量,并使用非参数检验中的单样本柯尔莫柯罗夫•斯米尔诺夫(Kolmogorov-Smirnov)检验。撇开样本数大小的影响,对照不分行业时的数据可以发现:
(1)各行业的均值、标准差有很大的差异,因而财务比率的分布特性与行业密切相关。
(2)行业财务比率的偏度和峰度与不分行业时相比差别很大。在分行业样本基础上,K—LZ值及正态分布双侧显著水平显示个别财务比率已接近正态分布(采掘业的X1,X12),但绝大多数比率仍不服从正态分布。
(3)偏度和峰度显628南 京 理 工 大 学 学 报 第29卷第5期著为0的极少,绝大多数比率有偏,且有很大的正峰度系数。在Q—Q图上,也只有采掘业的X1和X12,批发零售业的X1近似正态分布。在直方图上,原始数据有近三分之一的比率分布近似对称,其余有偏且高峰。参见表2及表3(仅以采掘业为例,省略了其它行业,下文同)。表2 2002~1998年全部年报数据(大样本)的财务比率正态性分析变量原始数据Box-Cox变换后的数据样本数偏度峰度K—L Z值样本数偏度峰度K—L Z值X15562-6.504750 164.2 9.16 5487 0.7465 20.920 6.80X25431 70.797780 5129•0 34.21 5430-9.3170 1358•000 30.01X35548-59.074700 3724•0 33.98 5547-59.1400 3732•000 34.01X45557 17.597190 594.8 22.18 5556 1.6555 383.500 21.79X55565 17.246080 405.9 32.02 5563 5.3842 351.400 31.54X65571 37.903070 1655•0 34.99 5570 8.2253 786.900 34.13X75571 67.722950 4800•0 33.81 5570-0.1050-0.250 1.92X85571 11.309320 217.6 15.66 5570 0.0193 0.673 2.56X95571 15.158430 349.8 15.68 5570 0.3956 9.110 5.96X105571 11.997510 542.3 18.18 5570 3.4693 156.700 17.31X115571-15.096300 350.5 15.15 5570-3.2250 27.160 0.57X125568 8.542117 161.9 10.82 5567 0.4463 46.300 8.34注:正态分布的偏度,峰度,K—L Z值均为0。表3 采掘业财务比率描述性统计量变量原始数据清洗数据变换数据样本数偏度峰度样本数偏度峰度样本数偏度峰度X165 0.162-0.730 60 0.131-0.760 60-0.060-0.650X262 0.060 2.215 57 0.048 1.848 57 0.060 1.841X365 0.442 1.978 60 0.353 1.839 60 0.118 0.345X465 0.959 3.935 59 1.032 0.996 59 0.179 2.107X565 1.738 3.037 57 1.699 2.830 57-0.030-0.240X665-8.010 64.410 59 1.909 2.591 59-0.030-0.110X765 1.031 0.981 60 1.112 1.345 60-0-0.060X865 2.645 8.082 59 2.646 7.657 59-0.100-0.340X965 0.596-0.520 60 0.511-0.700 60-0.010-0.390X1065-1.240 0.852 60-1.170 0.584 60-0.450-1.260X1165-0.600-0.500 60-0.500-0.680 60-0.160-0.820X1265-0.030-0.260 58 0.114-1.190 58-0.050-1.1702.2.2 离群值数据的清洗数据清洗的目的是对样本原始数据进行考察,将影响样本分布特性的污染数据从样本中清除掉。如前所说,影响财务比率正态分布的因素是多方面的。Denkin(1976)[1]、Martikainen(1980)[2]、Medimore(1991)[3]、Sudarsanam(1995)[4]等人分别从离群值、混合分布、经济周期、公司非正常经营等方面对此问题进行研究。从统计观测值的角度而言,导致样本分布中大量离群值及有偏的根源在于异常分布的影响,即受污染的观测数据来自于与正常观测值分布参数(均值与标准差)不同的正态分布总体,或来自于非正态分布总体。Barnett和Lewis[5]定义该过程如下: {X1,…,Xn}:Xj∈(1-λ)F+λ(φG) j=1,2,…,n式中:Xj表示总体中的样本;F表示主要分布;G表示受污染分布;λ表示总体中受污染观测值的比例参数;φ表示单个污染分布对全部受污染观测值的比例参数。从会计学的角度来看,导致异常分布的因素很多,例如濒临破产的企业、资产净值为负的企业、刚进行过重大资产重组的企业都可能引起其财务数据与正常经营的企业有不同的分布特性。本文把所有与正常分布不同的样本均视为受污染样本,关于受污染样本的统计识别及分布特性,本文在此不作讨论。本文提出的受污染样本的识别标准如下:#p#分页标题#e#
(1)已被发现出具过虚假财务报告的公司;
(2)连续数年经营利润为负的ST、PT公司;
(3)净资产为负,资本负债结构严重失衡的公司;
(4)年度报告被出具保留审计意见的公司;
(5)本年度经历资产重组、资产剥离、资产收购等重大资产、财务变化的公司。
2.3 数据的Box-Cox变换按上述标准将所有受污染的数据从行业财务比率样本中清除得到清洗后的样本。计算描述性统计量,并使用非参数检验中的单样本柯尔莫柯罗夫•斯米尔诺夫检验,以比较某一样本的观测值的累积分布函数是否与指定的理论分布存在显着差异。结果显示行业财务比率的偏度和峰度,K—L Z值及正态分布双侧显着水平都有巨大改善,接近正态分布的财务比率大幅度增加,见表3与表4。在Q—Q图上,采掘业的X1、X9、X12,批发零售业的X1、X3、X4、X7,农林牧副渔业的X9、X11、X12,已接近正态分布。在直方图上,分布对称的财务比率明显增加,仅有农林牧副渔业的X4、X12分布对称性变差。本文使用的Box-Cox变换的λ值由统计软件Minitab14直接计算得到,具体数值见表5。经过Box-Cox变换后的行业数据,大多数已接近正态分布。因单样本柯尔莫柯罗夫•斯米尔诺夫检验显著水平与样本数有关,单从K—L Z值还不足以说明这个问题。如从Q—Q图上看,除采掘业的X2、X10,批发零售业的X2、X10,农林牧副渔业的X2、X10外,其它所有财务比率均已接近正态分布。从直方图上看,各行业的X10分布特征是越接近上限100其分布频数越多,其包络线近似指数函数。采掘业的X2除峰值极大外,其它值均平均。农林牧副渔业及批发零售业的X2呈现尖峰且不对称,右尾比左尾长。表4 采掘业单样本K—L检验数据变量正态参数均值标准差原始数据清洗数据变换数据原始数据清洗数据变换数据K—L值原始数据清洗数据变换数据双侧显著水平原始数据清洗数据变换数据X134•750 34•770 10•840 12•650 12•860 2•764 0•568 0•487 0•563 0•904 0•972 0•909X20•845 20•860 21•620 3•483 3•626 3•801 1•932 1•974 1•792 0•001 0•003 0•003X312•310 32•670 7•332 8•202 8•389 1•605 1•172 1•115 0•648 0•128 0•167 0•796X40•318 33•430 22•890 0•215 7•687 5•316 1•049 1•185 1•079 0•221 https://shlunwen.org/shlwfabiao/caiwuhuijibiyelunwen/0•120 0•195X55•869 6•638 1•185 6•316 6•434 0•133 1•815 1•618 0•649 0•003 0•011 0•793X6-11•000 10•040 0•811 170•100 10•500 0•080 4•136 2•249 0•865 0 8E-05 0•443X70•562 0•573-0•640 0•251 0•242 0•410 1•096 1•061 0•642 0•181 0•210 0•804X82•123 2•152 0•728 1•691 1•744 0•241 1•909 2•025 0•525 0•001 6E-04 0•945X934•080 34•550 4•777 15•230 15•710 1•018 1•111 1•164 0•773 0•169 0•133 0•589X1085•400 84•880 6E+06 16•820 17•290 3E+06 1•553 1•536 1•267 0•016 0•018 0•081X1165•130 64•600 1877•000 15•740 16•210 771•900 1•017 0•855 0•681 0•252 0•458 0•743X122•638 3•057 1•854 1•036 0•877 0•305 0•705 0•847 0•820 0•702 0•471 0•512表5 Box-Cox变换的λ值行业X1X2X3X4X5X6X7x8x9x10x11x12大样本2.921 0 5•000 0.337 0.407 0.224-2.809-1.236 0.224 0.786 5•000 0.225采掘业0.675 1.012 0.899 1•000 0.113-0.113 0-0.675 0.449 3.483 1.798 0.562农牧渔业0.337 0.449 0.787-0.562 0 0.225-0.337-0.113 0.675 4.382 0.124-0.337批发零售业0.281 0.549 1.573 1.349 0 0-0.562 0.113 1.011 5•000 1.012 0.449#p#分页标题#e#
3 结论经统计分析,可得出如下结论:
(1)在对样本财务比率不进行任何整理的情况下,绝大多数比率不服从正态分布。本文认为各行业的财务比率分布参数有显著差异,不分行业的大样本不适合作为一个统计总体。
(2)代写财务会计论文将污染分布过程作为影响财务比率正态性的主要原因来进行分析,并按提出的受污染样本的识别标准来清除污染数据。但是,由于财务比率自身的分布特性,单独使用数据清洗或数据变换,仍然难以使大多数财务比率接近正态分布。(3)综合使用行业细分,数据清洗及Box-Cox变换,可以使绝大多数财务比率接近正态分布。但个别财务比率由于其会计特性,仍无法使之变换到正态分布,如X10。
参考文献:
[1] Deakin E B.Distributions of financial accounting ratios:Someempirical evidence[J].Accounting Review,1976,(1):90-96.
[2]https://shlunwen.org/shlwfabiao/caiwuhuijibiyelunwen/ Martikainen T.A note on the cross-sectional properties of fi-nancial ratio distribution[J].Omega,1991,19(5):498-501.
[3] Medimore C D.Some empirical distributions of financial ratios[J].Management Accounting,1968,50(1):13-16.
[4] Sudarsanam P S,Taffler R J.Financial ratio proportionalityand inter-temporal stability:An empirical analysis[J].Journalof Banking and Finance,1995,38:45-60
.[5] Barnes P.Methodological implications of non-normally dis-tributed financial ratios [J].Journal of Business Finance andAccounting,1982,9(1):51-62.6