原文:Data Science Simplified Part 3: Hypothesis Testing
翻译:大头
校对:Kaiser
著名的匈牙利裔美籍物理学家爱德华·泰勒曾经说过一段话:
真相是所有人都相信的简洁陈述,在找到其错漏之前,它始终正确; 假设是无人愿意相信的新颖建议,在被证明有效之前,它始终错误。
假设检验的应用在数据科学中占据主导地位,有必要对其进行简化和解构。如同侦探漫画,基于数据建立起来的假设检验,可以引领我们从一个新颖的启发中得出有效的推论。
(“一些漫不经心的说话,将我疑惑解开”)
概念
“假设” (hypothesis) 一词来自古希腊语的 hypo(under) 和 thesis(placing)。意指根据有限证据得出的想法,是深层次调查的起始点。
这个概念简明而强大。我们每天都在直觉性地做着假设检验。以下是假设检验的七步法:
流程
让我讲一个故事来解释假设检验的概念。在冰岛西部有一个名为侯尔马维克的小镇,这个小镇因为巫术博物馆而独享盛名。时至今日,仍有人在西峡湾自称巫师,比如“埃西铎” (Isildur) 和“甘道夫” (Gandalf),据说他们长着透视眼。一位统计学家想要验明真伪,因此他们玩起了透视纸牌的游戏。
(谁不喜欢透视呢)
游戏规则如下:
可以确定的是,正常人预测正确的平均次数是六次左右。这是我们进行假设检验的数据基础。然后,我们将利用统计学确认他们是否是巫师。
(“反间”机制也是同理,技能虽强可惜大都督还是输给了诸葛村夫)
不同类型的假设检验有不同的假定。假定和数据分布、取样策略和数据是否线性有关。一些常见的假设如下:
对于纸牌透视游戏而言,以下假设是正确的:
步骤2:原假设(H0)
原假设即为初始假定。这是对现状的假设,看看能否被推翻,也是需要被确证、被检验的假设。
对于纸牌透视游戏而言,原假设如下:
他只是在瞎猜。能不能中完全随缘。
(就像随缘箭赠有缘人)
步骤3:备择假设(Ha)
备择假设是原假设的相反假设。如果有统计的显著证据表能够确证备择假设,则原假设被推翻。
对于卡牌透视游戏而言,备择假设如下:
(当然也可以被透视)
步骤4:设定检验标准
原假设和备择假设已经定义,现状即是原假设。现在,需要设置一个阈值。我们已经知道,一个不是巫师的普通人在十次测试中会预测正确约六次。如果埃西铎和甘道夫的正确次数超过六次,那么将会有更多证据表明他们可能的确是巫师。统计量t用于计算估计值与假设值之间的差值。t的值越高,备择假设越可信。
假设检验的结果也可能出错。有四种可能的原因:
测试结果1、2正确,3、4错误。
如同所有的统计测试,假设检验必须应对这种不确定性,它必须应对概率。世上没有绝对真理。
我们需要设定一个概率水平,以确定I型错误发生的几率。这个水平称为“显著性水平”,用α表示。α的数值表明测试的精确与否,α数值越低,则测试越精确,反之亦然。α的值由假设检验的性质确定,典型值为0.001、0.05或0.1。
如果观察值只是一个随机数或是巧合呢?如果埃西铎和甘道夫只是测试当天比较幸运呢?这种不确定性需要减少。p值在假设检验中用于度量这种不确定性。
(你我身边偶尔会出现这种天选之人)
p值表示一个概率,这意味着它的值介于0-1之间。根据统计量t的大小及其分布可确定检验假设成立的可能性p值的大小。(译者按:p值的大小一般通过查阅相应界值表得到。)
对于卡牌透视游戏而言,当埃西铎正确次数达到8次以上,它就可以认为备择假设是可信的。埃西铎可能的确可以透视。统计量t为8。
作为一个透视者不会有生命危险,没有人会有危险,因此显著性水平设定为0.05,即α=0.05.
步骤5:进行测试
开始行动。统计学家们开始测试埃西铎和甘道夫的透视功夫,倒扣卡牌,做出预测,记录结果,该过程重复十次。统计引擎在收集到的数据上运行,并得出如下结果:
埃西铎:
统计量t:8
P值:0.1
甘道夫:
统计量t:9
P值:0.01
步骤6:评估结果。
p值与α值的比较可得出以下结果:
对埃西铎而言:
统计量t为8。这意味着他平均能正确预测八张牌。这比正常人所能预测的要高。 p值为0.1。这意味着概率统计错误的几率是10%。p值高。 设定的显著性水平(α)为0.05。即为5%。 p值大于设定的显著性水平即10% > 5%。
对甘道夫而言:
统计量t是9。这意味着他平均能正确预测九张牌。这比正常人所能预测的要高。 p值为0.01。这意味着概率统计错误的几率是1%。 设定的显著性水平(α)为0.05。即为5%。 p值小于设定的显著性水平,即1%<5%。
步骤7:得出结论
测试结束。数据已经知晓。谁才是真正的巫师?
对于埃西铎而言:p值大于设定的显著性水平(10% > 5%)。尽管平均而言,他已经正确地预测了八张牌;但统计学的结论如下:
结论:没有实质性的证据否定原假设。原假设不能被推翻。
对于甘道夫而言:平均而言,他正确地预测了九张牌。P值小于设定的显著性水平(1% < 5%)。
结论:有确切的证据否定原假设,原假设被推翻,备择假设被接受。
埃西铎灰头土脸。甘道夫得意洋洋。然而,埃西铎可以安慰自己,这不能证明他无法透视。原假设未能被推翻并不意味着备择假设不正确,只是意味着没有足够的证据来否定原假设。
(灰袍巫师趁热转职万磁王)
结论
其实并不需要进行假设检验去确证埃西铎和甘道夫的巫师身份。因为我们都知道甘道夫魔法高深,是真正的粉...不是,真正的大魔法师。
假设检验是机器学习的基本概念之一。许多评估方法都使用假设检验来评估模型的鲁棒性。在这个系列的学习中,我们将会深入了解它的构造。