模型选择与评估之比较检验
假设检验:“假设”为对学习器泛化错误率分布的某种判断和猜想,在现实任务中,并不知道学习器的泛化错误率,只能获知测试错误率,因此可以根据测试错误率估推出泛化错误率的分布。
设泛化错误率为,测试错误率为,在包含m个样本的测试集上,年华错误率为的学习器被测得测试错误率为的概率为
由上公式可得,给定测试错误率下,在时取最大值,且符合二项分布,因此使用二项检验来进行判断。
检验结论:在a的显著度下,假设不能被拒绝,即能以1-a的置信度认为学习器的泛化错误率不大于
;否则该假设可被拒绝,即在a的显著度下可认为学习器的泛化错误率大于
。
t检验:在多次测试时,假定得到k个测试错误率,则平均测试错误率
和方差
为
考虑这k个测试错误率可看作泛化错误率的独立采样,即有变量服从自由度为k-1的t分布。
检验结论:假定
和显著度a,若平均错误率
与
之差
位于临界值范围内,则不能拒绝假设
,可认为泛化错误率为
,置信度为1-a;否则该假设可被拒绝,即在该显著度下可认为学习器的泛化错误率与
有显著不同。
交叉验证 t 检验:两个学习器A和B,使用k折交叉验证法得到测试错误率分别为
和
,则可用k折交叉验证“成对t检验”来进行比较检验。
相比于假设检验是得到单个学习器的泛化错误率的大致范围假设,交叉检验方法就是在比较A、B两学习器性能的优劣。
检验思路:先对每对结果求差,
,若两个学习器性能相同,则差值均值为0,因此根据差值对“两个学习器性能相同”这个假设做t检验,计算器方差与均值。若变量
小于临界值
,则假设不能拒绝假设,可认为两个学习器性能没有显著差别;其中是自由度k-1的t分布上尾部累积分布为a/2的临界值。
5×2交叉验证法:缓解样本有限导致测试错误率无法做到彼此完全独立和有效的假设检验的一个重要的前提就是:测试错误率均为泛化错误率的独立采样之间的矛盾。
“5×2交叉验证”法就是做5次2折交叉验证,而在每次2折交叉验证之前随机将数据打乱,使得5次交叉验证中的数据划分不重复,对两个学习器第i次2折交叉验证产生的测试误差率分别求差。为缓解非独立性,对第1次2折交叉验证计算平均值
,对每次2折实验的结果计算方差
。由此均值方差得到变量服从自由度为5的t分布
McNemar检验:McNemar检验适用于二分类问题,两分类器分类差别列联表如下
假设两学习器性能相同,应有
,则变量
服从正态分布,McNemar检验变量服从自由度为1的
分布。
检验方法:在给定的显著度下,当变量值小于临界值
,则假设不能拒绝假设,可认为两个学习器性能没有显著差别;否则拒绝假设,认为两个学习器性能有显著差别。
Friedman检验:在一个数据集上对多种算法进行比较时,Friedman检验是一种基于算法排序的检验方法。
其变量为:
服从自由度为k-1的分布。
现在Friedman检验变量为:
变量服从自由度为k-1和(k-1)(N-1)的F分布。
Nemenyi后续检验:当假设“所有算法的性能相同”被拒绝的时候,需采用后续检验来进一步区分各算法,该算法计算出平均序值差别的临界值域,若两个算法的平均序值之差超过临界值域,则应以相应的置信度拒绝“两个算法性能相同”这一假设。
偏差与方差:解释学习算法泛化性能的重要工具。
方差:使用样本数相同的不同训练集产生的方差。
偏差:期望输出与真实标记的差别。
噪声:数据集标记和真实标记的方差。
假定噪声期望为0,对算法的期望泛化误差分解得到:
即泛化误差为偏差、方差与噪声之和。
偏差刻画学习算法本身的拟合能力
方差刻画数据扰动造成的影响
噪声刻画学习问题本身的难度
泛化能力与三者关系示意图如下
▼
领取专属 10元无门槛券
私享最新 技术干货