前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简明数据科学(3):你信吗?猜猜看哪!

简明数据科学(3):你信吗?猜猜看哪!

作者头像
陆勤_数据人网
发布2018-02-28 14:52:58
7210
发布2018-02-28 14:52:58
举报
文章被收录于专栏:数据科学与人工智能

原文:Data Science Simplified Part 3: Hypothesis Testing

翻译:大头

校对:Kaiser

著名的匈牙利裔美籍物理学家爱德华·泰勒曾经说过一段话:

真相是所有人都相信的简洁陈述,在找到其错漏之前,它始终正确; 假设是无人愿意相信的新颖建议,在被证明有效之前,它始终错误。

假设检验的应用在数据科学中占据主导地位,有必要对其进行简化和解构。如同侦探漫画,基于数据建立起来的假设检验,可以引领我们从一个新颖的启发中得出有效的推论。

(“一些漫不经心的说话,将我疑惑解开”)

概念

“假设” (hypothesis) 一词来自古希腊语的 hypo(under) 和 thesis(placing)。意指根据有限证据得出的想法,是深层次调查的起始点。

这个概念简明而强大。我们每天都在直觉性地做着假设检验。以下是假设检验的七步法:

  • 做出假定。
  • 提出原假设。
  • 提出备择假设。
  • 设定检验标准。
  • 进行基于事实的测试。
  • 评估结果。评估是否与初始假定相符?是否能够确认结果并非偶然?
  • 得出以下结论之一:推翻初始假定、赞成备择假设,或接受初始假定。

流程

让我讲一个故事来解释假设检验的概念。在冰岛西部有一个名为侯尔马维克的小镇,这个小镇因为巫术博物馆而独享盛名。时至今日,仍有人在西峡湾自称巫师,比如“埃西铎” (Isildur) 和“甘道夫” (Gandalf),据说他们长着透视眼。一位统计学家想要验明真伪,因此他们玩起了透视纸牌的游戏。

(谁不喜欢透视呢)

游戏规则如下:

  • 从一套扑克牌中随机抽取十张牌,倒扣。
  • 埃西铎和甘道夫将被询问其中四张牌,他们必须确认其花色。
  • 本实验重复十次。

可以确定的是,正常人预测正确的平均次数是六次左右。这是我们进行假设检验的数据基础。然后,我们将利用统计学确认他们是否是巫师。

(“反间”机制也是同理,技能虽强可惜大都督还是输给了诸葛村夫)

步骤1:做出假定

不同类型的假设检验有不同的假定。假定和数据分布、取样策略和数据是否线性有关。一些常见的假设如下:

  • 分布:数据遵循特定分布,理解数据背后存在的模式。多数自然发生的数据点分布,例如,股市数据,人的体重身高,酒吧中饮酒之人的薪资等,都可以用正态分布来近似。正态分布意味着大量的观测值都处于中间位置,只有少数观测值大于或小于中间值。中间值也称作中值。
  • 抽样:假定取样数据是随机抽取的,无偏。

对于纸牌透视游戏而言,以下假设是正确的:

  • 在该游戏中,卡牌抽取的分布服从正态分布。因为卡牌是随机选择的,所以此假设应当为真,也即:所抽取的十张牌中,每一张都有相等几率被用于测试。
  • 卡牌随机选择的概率无偏。

步骤2:原假设(H0)

原假设即为初始假定。这是对现状的假设,看看能否被推翻,也是需要被确证、被检验的假设。

对于纸牌透视游戏而言,原假设如下:

  • H0:埃西铎/甘道夫不能透视。

他只是在瞎猜。能不能中完全随缘。

(就像随缘箭赠有缘人)

步骤3:备择假设(Ha)

备择假设是原假设的相反假设。如果有统计的显著证据表能够确证备择假设,则原假设被推翻。

对于卡牌透视游戏而言,备择假设如下:

  • Ha:埃西铎/甘道夫可以透视。

(当然也可以被透视)

步骤4:设定检验标准

原假设和备择假设已经定义,现状即是原假设。现在,需要设置一个阈值。我们已经知道,一个不是巫师的普通人在十次测试中会预测正确约六次。如果埃西铎和甘道夫的正确次数超过六次,那么将会有更多证据表明他们可能的确是巫师。统计量t用于计算估计值与假设值之间的差值。t的值越高,备择假设越可信。

假设检验的结果也可能出错。有四种可能的原因:

  1. 测试结果:埃西铎/甘道夫是透视。事实:他是一个透视。
  2. 测试结果:埃西铎/甘道夫不是透视。事实:他不是一个透视。
  3. 测试结果:埃西铎/甘道夫是透视。事实:他不是一个透视。
  4. 测试结果:埃西铎/甘道夫不是透视。事实:他是一个透视。

测试结果1、2正确,3、4错误。

  • 测试结果3推翻了原假设,尽管它与原假设事实相符。这是一个假阳性(false positive),这种错误也被称作I型错误。
  • 测试结果4接受了原假设,尽管它与原假设事实不符。这是一个假阴性(false negative),这种错误也被称作II型错误。

如同所有的统计测试,假设检验必须应对这种不确定性,它必须应对概率。世上没有绝对真理。

我们需要设定一个概率水平,以确定I型错误发生的几率。这个水平称为“显著性水平”,用α表示。α的数值表明测试的精确与否,α数值越低,则测试越精确,反之亦然。α的值由假设检验的性质确定,典型值为0.001、0.05或0.1。

如果观察值只是一个随机数或是巧合呢?如果埃西铎和甘道夫只是测试当天比较幸运呢?这种不确定性需要减少。p值在假设检验中用于度量这种不确定性。

(你我身边偶尔会出现这种天选之人)

p值表示一个概率,这意味着它的值介于0-1之间。根据统计量t的大小及其分布可确定检验假设成立的可能性p值的大小。(译者按:p值的大小一般通过查阅相应界值表得到。)

对于卡牌透视游戏而言,当埃西铎正确次数达到8次以上,它就可以认为备择假设是可信的。埃西铎可能的确可以透视。统计量t为8。

作为一个透视者不会有生命危险,没有人会有危险,因此显著性水平设定为0.05,即α=0.05.

步骤5:进行测试

开始行动。统计学家们开始测试埃西铎和甘道夫的透视功夫,倒扣卡牌,做出预测,记录结果,该过程重复十次。统计引擎在收集到的数据上运行,并得出如下结果:

埃西铎:

统计量t:8

P值:0.1

甘道夫:

统计量t:9

P值:0.01

步骤6:评估结果。

p值与α值的比较可得出以下结果:

对埃西铎而言:

统计量t为8。这意味着他平均能正确预测八张牌。这比正常人所能预测的要高。 p值为0.1。这意味着概率统计错误的几率是10%。p值高。 设定的显著性水平(α)为0.05。即为5%。 p值大于设定的显著性水平即10% > 5%。

对甘道夫而言:

统计量t是9。这意味着他平均能正确预测九张牌。这比正常人所能预测的要高。 p值为0.01。这意味着概率统计错误的几率是1%。 设定的显著性水平(α)为0.05。即为5%。 p值小于设定的显著性水平,即1%<5%。

步骤7:得出结论

测试结束。数据已经知晓。谁才是真正的巫师?

对于埃西铎而言:p值大于设定的显著性水平(10% > 5%)。尽管平均而言,他已经正确地预测了八张牌;但统计学的结论如下:

结论:没有实质性的证据否定原假设。原假设不能被推翻。

对于甘道夫而言:平均而言,他正确地预测了九张牌。P值小于设定的显著性水平(1% < 5%)。

结论:有确切的证据否定原假设,原假设被推翻,备择假设被接受。

埃西铎灰头土脸。甘道夫得意洋洋。然而,埃西铎可以安慰自己,这不能证明他无法透视。原假设未能被推翻并不意味着备择假设不正确,只是意味着没有足够的证据来否定原假设。

(灰袍巫师趁热转职万磁王)

结论

其实并不需要进行假设检验去确证埃西铎和甘道夫的巫师身份。因为我们都知道甘道夫魔法高深,是真正的粉...不是,真正的大魔法师。

假设检验是机器学习的基本概念之一。许多评估方法都使用假设检验来评估模型的鲁棒性。在这个系列的学习中,我们将会深入了解它的构造。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 步骤1:做出假定
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档