统计︱P值-0.05就发表,不然就去死!

寄语:需要多少个统计学家,才能保证对于p值有至少50%的不满呢?根据曼荷莲学院统计学家George Cobb半开玩笑的估计,答案是两个...或者一个。

一、P值的由来

R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)Fisher的具体做法是:

1.假定某一参数的取值。

2.选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。

3.从研究总体中抽取一个随机样本4计算检验统计量的值5计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。

.如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。

.如果0.01<P值<0.05,说明较弱的判定结果,拒接假定的参数取值。

.如果P值>0.05,说明结果更倾向于接受假定的参数取值。

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。但是,如果选中相同的α,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。

因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。

二、P值的意义

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

理解P值,下述几点必须注意:

⑴P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小。

⑵ P>α时,差异无显著意义,根据统计学原理可知,不能否认无效假设,但并不认为无效假设肯定成立。

⑶统计学主要用三种α值来与P值比较(0.1;0.05;0.01),也可以计算出确切的P值,也有人用P <0.001,至于选择哪个要看检验的应用领域。

⑷显著性检验只是统计结论。判断差别还要根据专业知识。

三、统计学家难得的共识:是时候停止滥用P值了

对于外行人很少听过的一个科学术语产生愤怒,这事听起来可能很疯狂,但它的结果意义重大。对于p值的误用会导致不良的科学风气与成果(对于这一点大家没有异议)。对一些科学领域逐渐增长的担忧,催生了这份一致声明。p值在一些领域已经成了决定研究论文是否值得出版的试金石。结果是,那些能够给出超过某个随意阈值的研究论文,更有可能被出版;同时具有更大或同等科研重要性的研究可能被扔在抽屉里,不被科学界所见。

分歧大多围绕着频率论者VS贝叶斯方法的技术争论,以及p值的补充与替代品。“分歧是巨大的。包括对于核心问题以及需要被改革的实践的不同看法”,Goodman说,“人们为此面红耳赤”。

最重要的信息之一是,p值无法告诉你,你的假设是否正确。相反,它是在你的假设之下的,你的数据的概率。这听起来很像“在你的数据之下的,你的假设的概率”,但它们不是一回事,卢森堡健康研究所的一名生物统计学家Stephen Senn说道。要理解原因,可以考虑这样一个例子,“教皇是基督徒吗?答案是肯定的”,他说。“基督徒是教皇吗?答案很可能是否定的。如果你更改了顺序,声明就不存在了”。

在非统计学者中常有的一个误解是,p值可以告诉你,某个结果“碰巧”发生的概率。这种解读绝对是错的,但你又总能一次次地看到。p值只会告诉你有关在某个假设解释下,得到你的结果的概率——它无法告知结果正确的概率,或者结果是随机发生的概率。这份声明中的第二项原则:“p值无法衡量所研究的假设正确的概率,或它们是否随机发生的概率。”

p值也无法告诉你某个影响的规模,某个证据的强度或是某个结果的重要性。尽管有这些限制,p值常被用于区分科学发现的真伪,这带来了恶劣的影响。当目标从追寻真理,变成获得符合某个随意阈值(在许多领域0.05或更小的值被认为“统计显著”)的p值的时候,研究者们倾向于在数据里垂钓,使用不同的分析直到发现什么p值合格的东西。你可以在去年早些时候我们建立的“p值黑客(p-hacking)”工具对此进行了解。

的确,许多ASA委员会成员在其评论中表示,p值不是问题所在,而是它如何被使用——“没能根据‘刻意挑选’、‘多次测试’、‘得到数据后分组’和其他带来偏差的挑选效果进行调整”,弗吉尼亚理工大学的统计哲学家Deborah Mayo 说道。当p值被当作区分结果是否显著的分类方式时,收集和分析数据的巨大努力被降级为贴标签,波士顿大学的流行病学家Kenneth Rothman说。

声明附带的20个评论展示了一些关于未来何去何从的想法。委员会的一些成员认为应该转而依靠其他测量工具,如置信区间和贝叶斯分析。其他人认为这样治标不治本。“解决方案不应是对p值进行改革或用其他统计指标/阈值进行替代”,哥伦比亚大学统计学家Andrew Gelman写道,“而是去更多接受不确定性与变化”。

如果这份声明能提炼出什么简单的结论,那就是:p值不是真理的标志,p < 0.05不是区分真假的界线。它们只是谜题中应该与上下文其他证据放在一起考虑的一部分。

本文始于一首俳句诗,它是对于这份p值文件的回复之一。这里让我们用密歇根大学生物统计学家Roderick Little的一首打油诗结束本文。

统计学里,有个规则我们真的重视:

P零点零五就出版,不然就去死!

Val Johnson说:“这已经过时,我们的研究如果不出现P零点零零五,那就啥也不是!”

内容由经管爱问整理,原作出自经管之家、CHRISTIE ASCHWANDEN(翻译:王鹏宇)

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2016-03-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉战队

2018年最全干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

1543
来自专栏数据科学与人工智能

【数据科学】数据科学能回答什么样的问题?

机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。...

2558
来自专栏新智元

【资源】机器学习和神经网络实践:书籍及博客推介

【新智元导读】前几天我们向大家推荐了自学成为 Data Scientist 在线课程系列,很多人纷纷收藏和分享。今天新智元再针对数学,为大家介绍几本书和相关资料...

3728
来自专栏计算机视觉战队

2018年暑假最全的干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

1062
来自专栏数据科学与人工智能

【数据科学】数据科学可以做什么

机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。...

28910
来自专栏新智元

【荐书】机器学习需要的数学知识和基础书籍推荐

【新智元导读】我们在《机器学习里,数学究竟多重要?》一文中提供了机器学习所需的数学知识和建议,对于初学者来说,并不需要先掌握大量的数学知识再开始做机器学习。学习...

38012
来自专栏MixLab科技+设计实验室

如何量化一张图片的色彩关系?

上一期讲到Brandmark提出了一种表达色彩比例及关系的数据结构,无向色彩节点图,见下图:

2272
来自专栏人工智能头条

几种监督式学习算法的比较

1092
来自专栏杨建荣的学习笔记

人机大战第二回合后的思考(r12笔记第75天)

古希腊哲学家普罗泰戈拉说道:人是万物的尺度。在人工智能时代的今天,这句话更有深意,已经不是单纯的抒情了。 今天是AlphaGo和柯洁的第二场比赛。在谷歌De...

3566
来自专栏数据科学与人工智能

【陆勤阅读】参加kaggle数据挖掘竞赛是怎样一种体验?

先贴下Kaggle Profile以示诚意(https://www.kaggle.com/winsty)我是KDD Cup专业户,虽然每年做的都不是特别好。。。...

2599

扫码关注云+社区

领取腾讯云代金券