第二章泛化误差的组块3X2交叉验证估计
本章首先讨论了模型性能最重要的度量指标——泛化误差,以及泛化误差的估计问题,接着给出了组块3X2交叉验证的提出过程,分析了其优略,最后讨论了用组块3X2交叉验证方法来对泛化误差进行估计。
2. 1模型性能的度量及其估计
在统计机器学习的模型选择和模型性能评估任务中,模型性能的度量始终起着重要作用,因为它直接衡量着机器学习各个环节的有效性。评价模型性能的指标有样本内预测误差和样本外预测误差(即泛化误差).
通常,在实际应用中人们更关注的是模型在未知数据上的预测能力,因此,泛化误差就成了最常用且最重要的模型性能的度量指标。当数据量足够大时,可以专门留出一部分数据作为测试集,将模型在该测试集上的预测误差作为泛化误差的估计,但实际应用中数据量往往不足,因此人们提出了交叉验证的样本重用方法来对泛化误差进行有效的估计。如引言中所述,目前常用的交叉验证方法有:标准的K折交叉验证、RLT、5X2交叉验证、留.交叉验证等等。其中,标准的K折交叉验证方法首先将数据集随机切分为K份,用其中一份做测试集,其余K-1份做训练集,这样便可做K次训练和测试,最后合并所有K份上的测试结果作为泛化误差的估计值。
2.2组块3X2交叉验证的提出
关于交叉验证折数的选择,现有的文献中都只是经验性的建议选用5折或10折,缺乏理论依据,这难免受主观因素的影响。根据已有的研究成果,较低折数的交叉验证是有一定的优势的,例如,Dietterich[5]、Alpaydin[6]论文中的模拟实验证明了 2折交叉验证比10折交叉验证的性能更好,在分类学习算法的模型选择问题屮,YuhongYang[7]更是从理论上证明了 2折交叉验证选出的模型在一致性上有优势。因此述义选用2折的交叉验证,且从计算复杂度的角度来讲,2折交叉验证比常用的5折、10折交叉验证更有优势当对两个算法的性能进行对照时,在统计意义上需要对其泛化误差进行fill件检验,以选出好的算法。但好的显著性检验需要有好的方若估计做支撑,而要付方差进行有效的估计,就需要对数据进行有效重复划分。从这点来讲,Dietterichf和Alpaydinl6]m使用的5X2交叉验证具有一走的优势,因为进行了 5次独立的2折交叉验证,能够给出方差更有效的估计。然而,常用的交叉验证方法都对数据集进行随机切分,这种切分方式布如下缺陷:
1)对给定的数据集,由于每次随机抽样的结果可能相差较大,的划分可能会导致计算结果很大的差异,因此,即便是对同一个数据集同样折数的交叉验证,相同的算法,但得到的结果可能完全不同,这使得研究人的实验结果,给后期研究带来很多不便,Bouchaert和Frank的文献中也注怠到了这个问题;2)在分类任务屮,样木的随机切分很可能导致类别不均衡问题,Thomas和Richard研究结果已表明类别不均衡会导致算法的性能很差;3)多次靈复的随机划分在实际应用中并不能给出方差的有效估计,例如,在5X2交叉验证的5次独立2折交叉验证中,一次不好的随机划分结果便会影响到錄法的整体性能,例如二分类问题中,极端情况下训练集中包含一类样本,而测试集中包含另一类样木,这样将使得分类算法的性能很差。
我们应该使用折数较低的交叉骑证,且在数掘切分阶段应根据训练集中样本的类别比例将样本均勾的切分。具体的,首先将训练数据梁按类别标签均匀的切分为4份,然后任取两份作为训练集,其余两份作为测试集,做3组,即总共实施3组2折交叉验证,因此,我们称之为组块3X2交叉验证。李济洪[10]在自然语言处理的实际应用中证明了组块3 X2交叉验证优于常用的K折交叉验证。
第二章泛化误差的组块3x2交叉........................5
2.1模型性能的度量........................5
2.2组块3x2交叉验证的........................5
2.3泛化误差的组块交叉........................6
第三章组块3x2交叉验证在........................9
3.1组块3x2交叉验证的模型........................9
3.2模型选择性能的........................9
3.3影响交叉验证模型选择........................10
3.4实验........................12
第四章组块3x2交叉验证........................23
4.1 CV3x2方差的理论........................23
4.2实验........................24
4.3 CV3x2方差的........................27
第七章总结与展望
7.1总结
本文主要针对分类任务,从模型选择、方差分析、方差估计、假设检验等几个角度对李济洪新提出的组块3X2交叉验证方法进行了初步的研究。并取得了较好的结论。综合以往学者的研究结果,从CV值的偏差、方差、数据集切分方式、计算复杂度等角度考虑,我们判断组块3X2交叉验证在模型选择中的性能会好于常用的5折、10折交叉验证,并通过大量的实验证明了这一结论,在我们的实验中,组块3X2交叉验证比其余两个交叉验证选到真模型的概率.?多能大出近25个百分点。虽然当特征取值离散时有个别例外的情况,组块3X2交义验证在计算复杂度上也是很有优势的,这一点在自然处观、人规模数掘挖掘,文际应用中尤为重要。当要比较两个分类算法的好坏时,在统汁义上要针对其泛化误差做显著性检验,因此需要有交叉验证方差的好的佔计,为此我们在理论上分析了组块3X2交叉验证方差的结构特点,并给出了 Var—个保守的估计。通过显著性检验实验知道基于组块3X2交叉验证的t检验比其他检验方法更有效,其拥有更小的犯第一类错误的概率和更大的势。自然处现屮的分类学习算法常用准确率、召回率、F-测度位等作为指标,其中准确率和召率服从贝塔分布,再利用F-测度值与准确率和{回率之的关系,我们通过模拟实验证明了 测度值也近似服从正态分布,因此,本文关于泛化误差的研究结论都可应用于基于准确率、召回率、F-测度值的统计推断中。特别是在针对P、R、Fi值做统计显著性检验时。