简明数据科学（3）：你信吗？猜猜看哪！

陆勤_数据人网

发布于 2018-02-28 14:52:58

7450

发布于 2018-02-28 14:52:58

文章被收录于专栏：数据科学与人工智能

原文：Data Science Simplified Part 3: Hypothesis Testing

翻译：大头

校对：Kaiser

著名的匈牙利裔美籍物理学家爱德华·泰勒曾经说过一段话：

真相是所有人都相信的简洁陈述，在找到其错漏之前，它始终正确; 假设是无人愿意相信的新颖建议，在被证明有效之前，它始终错误。

假设检验的应用在数据科学中占据主导地位，有必要对其进行简化和解构。如同侦探漫画，基于数据建立起来的假设检验，可以引领我们从一个新颖的启发中得出有效的推论。

（“一些漫不经心的说话，将我疑惑解开”）

概念

“假设” (hypothesis) 一词来自古希腊语的 hypo(under) 和 thesis(placing)。意指根据有限证据得出的想法，是深层次调查的起始点。

这个概念简明而强大。我们每天都在直觉性地做着假设检验。以下是假设检验的七步法：

做出假定。
提出原假设。
提出备择假设。
设定检验标准。
进行基于事实的测试。
评估结果。评估是否与初始假定相符？是否能够确认结果并非偶然？
得出以下结论之一：推翻初始假定、赞成备择假设，或接受初始假定。

流程

让我讲一个故事来解释假设检验的概念。在冰岛西部有一个名为侯尔马维克的小镇，这个小镇因为巫术博物馆而独享盛名。时至今日，仍有人在西峡湾自称巫师，比如“埃西铎” (Isildur) 和“甘道夫” (Gandalf)，据说他们长着透视眼。一位统计学家想要验明真伪，因此他们玩起了透视纸牌的游戏。

（谁不喜欢透视呢）

游戏规则如下：

从一套扑克牌中随机抽取十张牌，倒扣。
埃西铎和甘道夫将被询问其中四张牌，他们必须确认其花色。
本实验重复十次。

可以确定的是，正常人预测正确的平均次数是六次左右。这是我们进行假设检验的数据基础。然后，我们将利用统计学确认他们是否是巫师。

（“反间”机制也是同理，技能虽强可惜大都督还是输给了诸葛村夫）

步骤1：做出假定

不同类型的假设检验有不同的假定。假定和数据分布、取样策略和数据是否线性有关。一些常见的假设如下：

分布：数据遵循特定分布，理解数据背后存在的模式。多数自然发生的数据点分布，例如，股市数据，人的体重身高，酒吧中饮酒之人的薪资等，都可以用正态分布来近似。正态分布意味着大量的观测值都处于中间位置，只有少数观测值大于或小于中间值。中间值也称作中值。
抽样：假定取样数据是随机抽取的，无偏。

对于纸牌透视游戏而言，以下假设是正确的：

在该游戏中，卡牌抽取的分布服从正态分布。因为卡牌是随机选择的，所以此假设应当为真，也即：所抽取的十张牌中，每一张都有相等几率被用于测试。
卡牌随机选择的概率无偏。

步骤2：原假设（H0）

原假设即为初始假定。这是对现状的假设，看看能否被推翻，也是需要被确证、被检验的假设。

对于纸牌透视游戏而言，原假设如下：

H0：埃西铎/甘道夫不能透视。

他只是在瞎猜。能不能中完全随缘。

（就像随缘箭赠有缘人）

步骤3：备择假设（Ha）

备择假设是原假设的相反假设。如果有统计的显著证据表能够确证备择假设，则原假设被推翻。

对于卡牌透视游戏而言，备择假设如下：

Ha：埃西铎/甘道夫可以透视。

（当然也可以被透视）

步骤4：设定检验标准

原假设和备择假设已经定义，现状即是原假设。现在，需要设置一个阈值。我们已经知道，一个不是巫师的普通人在十次测试中会预测正确约六次。如果埃西铎和甘道夫的正确次数超过六次，那么将会有更多证据表明他们可能的确是巫师。统计量t用于计算估计值与假设值之间的差值。t的值越高，备择假设越可信。

假设检验的结果也可能出错。有四种可能的原因：

测试结果：埃西铎/甘道夫是透视。事实：他是一个透视。
测试结果：埃西铎/甘道夫不是透视。事实：他不是一个透视。
测试结果：埃西铎/甘道夫是透视。事实：他不是一个透视。
测试结果：埃西铎/甘道夫不是透视。事实：他是一个透视。

测试结果1、2正确，3、4错误。

测试结果3推翻了原假设，尽管它与原假设事实相符。这是一个假阳性(false positive)，这种错误也被称作I型错误。
测试结果4接受了原假设，尽管它与原假设事实不符。这是一个假阴性(false negative)，这种错误也被称作II型错误。

如同所有的统计测试，假设检验必须应对这种不确定性，它必须应对概率。世上没有绝对真理。

我们需要设定一个概率水平，以确定I型错误发生的几率。这个水平称为“显著性水平”，用α表示。α的数值表明测试的精确与否，α数值越低，则测试越精确，反之亦然。α的值由假设检验的性质确定，典型值为0.001、0.05或0.1。

如果观察值只是一个随机数或是巧合呢？如果埃西铎和甘道夫只是测试当天比较幸运呢？这种不确定性需要减少。p值在假设检验中用于度量这种不确定性。

（你我身边偶尔会出现这种天选之人）

p值表示一个概率，这意味着它的值介于0-1之间。根据统计量t的大小及其分布可确定检验假设成立的可能性p值的大小。（译者按：p值的大小一般通过查阅相应界值表得到。）

对于卡牌透视游戏而言，当埃西铎正确次数达到8次以上，它就可以认为备择假设是可信的。埃西铎可能的确可以透视。统计量t为8。

作为一个透视者不会有生命危险，没有人会有危险，因此显著性水平设定为0.05，即α=0.05.

步骤5：进行测试

开始行动。统计学家们开始测试埃西铎和甘道夫的透视功夫，倒扣卡牌，做出预测，记录结果，该过程重复十次。统计引擎在收集到的数据上运行，并得出如下结果：

埃西铎：

统计量t：8

P值：0.1

甘道夫：

统计量t：9

P值：0.01

步骤6：评估结果。

p值与α值的比较可得出以下结果：

对埃西铎而言：

统计量t为8。这意味着他平均能正确预测八张牌。这比正常人所能预测的要高。 p值为0.1。这意味着概率统计错误的几率是10%。p值高。设定的显著性水平（α）为0.05。即为5%。 p值大于设定的显著性水平即10% > 5%。

对甘道夫而言：

统计量t是9。这意味着他平均能正确预测九张牌。这比正常人所能预测的要高。 p值为0.01。这意味着概率统计错误的几率是1%。设定的显著性水平（α）为0.05。即为5%。 p值小于设定的显著性水平，即1%＜5%。

步骤7：得出结论

测试结束。数据已经知晓。谁才是真正的巫师？

对于埃西铎而言：p值大于设定的显著性水平（10% > 5%）。尽管平均而言，他已经正确地预测了八张牌；但统计学的结论如下：

结论：没有实质性的证据否定原假设。原假设不能被推翻。

对于甘道夫而言：平均而言，他正确地预测了九张牌。P值小于设定的显著性水平（1% ＜ 5%)。

结论：有确切的证据否定原假设，原假设被推翻，备择假设被接受。

埃西铎灰头土脸。甘道夫得意洋洋。然而，埃西铎可以安慰自己，这不能证明他无法透视。原假设未能被推翻并不意味着备择假设不正确，只是意味着没有足够的证据来否定原假设。

（灰袍巫师趁热转职万磁王）

结论

其实并不需要进行假设检验去确证埃西铎和甘道夫的巫师身份。因为我们都知道甘道夫魔法高深，是真正的粉...不是，真正的大魔法师。

假设检验是机器学习的基本概念之一。许多评估方法都使用假设检验来评估模型的鲁棒性。在这个系列的学习中，我们将会深入了解它的构造。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-22，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自数据科学与人工智能微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据分析

登录后参与评论

0 条评论

热度