Nature上讨论显著性P值的文章挺多的,之前想过把各种观点搜集一下。
这篇文章的稿子在我桌面上已经躺了两年,现在也不想继续整了。就把之前弄好的发出来吧。
1. Scientists rise up against statistical significance
Link:
https://www.nature.com/articles/d41586-019-00857-9?fbclid=IwAR1jzbGpWu9wsHIwBdOu3byOielCLEQxPZMvHJ-3X4GW2gvy4eD98a7a9EU
统计上不显著的结果并不能“证明”原假设(即各组之间没有差异,或者某种治疗方法对某些测量结果没有影响)。
统计上显著的结果也不能“证明”其他一些假设。
永远不应该仅仅因为P值大于阈值(如0.05)或因为置信区间包含0,就得出“没有差异”或“没有关联”的结论。
我们也不应该因为其中一项研究的结果在统计学上具有显著性,而另一项则没有显著性就得出两项研究存在冲突的结论。
这些错误浪费了研究工作,误导了政策决策。
这些错误和类似的错误普遍存在。对数百篇文章的调查发现,统计上不显著的结果被解释为“没有差异”或“没有影响”的文章约有一半。
作者们呼吁放弃统计意义的整个概念。
作者强调不是在呼吁禁止P值。也不是说P值不能在某些特定的应用中用作决策标准(例如确定一个制造过程是否满足某些质量控制标准)。
作者呼吁停止以传统的二分法来使用P值——来决定一个结果是反驳还是支持一个科学假设。
问题出在人类和认知上,而不是统计上:把结果分成“统计显著性”和“统计非显著性”,让人们认为以这种方式分配的项目是绝对不同的。
同样的问题也可能出现在任何涉及二分法的统计方法中,无论是频率法、贝叶斯法还是其他方法。
作者再次声明并不提倡禁止P值、置信区间或其他统计方法——只是我们不应该断然对待它们。
这包括统计显著性或非显著性的二分法,以及基于贝叶斯因子等其他统计度量的分类。
避免这种“二分法”的一个原因是,所有的统计数据,包括P值和置信区间,在不同的研究中自然会有所不同,而且往往达到惊人的程度。
事实上,单是随机变化就很容易导致P值的巨大差异,远远不止落在0.05阈值的任意一侧。
我们必须学会接受不确定性。一个可行的方法是将置信区间重命名为“兼容性区间”(confidence intervals as ‘compatibility intervals’),并以一种避免过度自信的方式来解释它们。
特别地,我们建议作者描述区间内所有值的实际含义,特别是观察到的效果(或点估计)和极限。
作者将强调他们的估计和其中的不确定性,他们不会依赖显著性检验。
当报告P值时,将以合理的精度给出它们(例如,P = 0.021或P = 0.13)——不使用星星或字母等修饰来表示统计意义,也不使用二进制不等式(P < 0.05或P > 0.05)。
解释或发布结果的决定将不会基于统计阈值。人们会花更少的时间在统计软件上,更多的时间在思考上。
呼吁取消统计意义并使用置信区间作为兼容性区间并不是万能药。
尽管它将消除许多不好的实践,但它很可能引入新的实践。
因此,监测滥用统计数据的文献应该是科学界目前的一个优先事项。
现在是统计显著性消失的时候了。
2. It’s time to talk about ditching statistical significance
Link:
https://www.nature.com/articles/d41586-019-00874-8
P值是否高于或低于“统计显著性”的任意阈值(如0.05)决定了假设是否被接受,论文是否发表,产品是否上市。
但是使用P值作为唯一的仲裁者来决定接受什么作为真理也意味着一些分析是有偏见的,一些误报被夸大了,一些真实的影响被忽视了。
统计学家呼吁科学家放弃统计意义。作者并没有呼吁将P值本身作为一种统计工具抛弃——相反,他们希望停止将P值作为一种任意的显著性阈值。
一篇文章哀悼:工具已经变成了暴君。
Thetool has become the tyrant.
如果研究人员真的放弃了统计学上的显著性,他们应该做什么呢?
他们可以从让自己了解统计上的错误观念开始。
最重要的是要有勇气在每项研究中从多个角度考虑不确定性。
逻辑学、背景知识和实验设计应与P值和类似的度量标准一起考虑,以得出结论并决定其确定性。
研究人员在确定使用哪种方法时,也应该尽可能关注实际问题。
那些愿意为使用统计数据的最佳方法的抽象理论而抗争的人,在面对具体的场景时,往往会对结果达成一致。
研究人员应该尝试用多种方法分析数据,看看不同的分析是否会聚在同一个答案上。将数据集给不同团队分析的项目表明,这种方法可以验证研究结果,并提供新的见解。
简而言之,保持怀疑,选择一个好问题,并尝试用多种方式回答它。
需要很多数字才能接近真相。
3. Five ways to fix statistics
Link:
https://www.nature.com/articles/d41586-017-07522-z
我们需要认识到,数据分析不是纯粹的计算和算法——它是一种人类行为。
在许多领域,只有当结果具有“统计显著性”,即P值(或类似的度量)低于某些预先指定的阈值时,才会考虑是否要发表实证研究结果、进行研究或制定政策。
这种方法被称为零假设显著性检验(null hypothesissignificance testing, NHST)。
任何一项研究,无论其设计和实施多么糟糕,都可能导致统计上的显著性,从而宣告其真伪。NHST被认为是为了保护研究人员不过度解释嘈杂的数据。现在它却产生了相反的效果。
我们不想禁止P值。
相反,我们希望它们只是众多证据中的一个,以及先验知识、机制的合理性、研究设计和数据质量、真实世界的成本和收益,以及其他因素。
一个关键的步骤是超越二元语句的炼金术,即只是用P值判断“有效果”或“没有效果”。
相反,研究人员必须接受不确定性,并接受不同情况下的变化。
4. Statisticians issue warning over misuse of P values
Link:
https://www.nature.com/articles/nature.2016.19503
美国统计协会(ASA)发布的一份声明中警告说,P值的滥用正在导致无法复制的研究结果的数量增加。该组织表示,P值不能决定假设是否正确,或者结果是否重要。
这是177岁的ASA第一次对这样一个统计基础问题提出明确的建议。该协会的成员越来越担心,P值被误用的方式,会让人们普遍对统计数据产生怀疑。
ASA在声明中建议研究人员避免仅根据P值得出科学结论或做出决策。该协会表示,研究人员不仅应该描述产生统计显著结果的数据分析,还应该描述在计算中做出的所有统计测试和选择。否则,结果可能看起来不可靠。
P值为0.05并不意味着给定假设有95%的可能是正确的。相反,它表示,如果零假设为真,并且所有其他假设都是有效的,那么有5%的机会获得一个至少与观察到的结果一样极端的结果。
P值不能表明发现的重要性;例如,一种药物可以在没有治疗效果的情况下对患者的血糖水平产生统计上显著的影响。
人们想要一些他们无法真正得到的东西:他们想要确定性。
“People want something that they can't really get, they want certainty.”
5. P valuesand the search for significance
Link:
https://www.nature.com/articles/nmeth.4120
考虑一项研究,在100个个体中测量10个生理变量,以确定是否有任何变量可以预测收缩压(SBP)。假设所有变量在总体中都独立。
如使用简单的线性回归,并关注其中一个变量作为预测变量,将在5%的样本中产生P < 0.05(图1a)。
然而如果我们测试每一个变量,现在有40%的几率会发现至少有一个P < 0.05。这是怎么发生的?
图1 在评估统计显著性时,我们依赖于零假设H0为真时它们的分布。
(a) H0为真时,1000次统计检验的模拟P值。分布均匀,平均5% P < 0.05(蓝色)。
(b)在H0为真时,10次试验的1 000次模拟中最小P值的分布情况。平均40%的P < 0.05(蓝色)。
在报告最显著P值时,我们实际上考虑的是10个随机均匀分布的最小值的分布(图1b)。
这种分布很容易计算,对于k个独立的测试,密度为k(1−x)k−1。
k = 10, P < 0.05的概率为1−(1−0.05)10 = 0.40(图1b)。
任何基于结果的选择,而不是基于预先设定的假设,都会导致选择偏差。
补充P值的一个常见建议是报告效果的置信区间。
图2显示了与图1中的测试场景相对应的置信区间。
当我们在零值为真时进行100次单一假设检验时,只有5%的置信区间不覆盖0(图2a)。
如果我们只考虑10个测试中最显著的置信区间,平均而言,40%的置信区间不包含0(图2b)。
(a) 100个单样本t检验的95%置信区间,样本规模n = 100,均值0,标准差= 1。区间按统计显著性的递增顺序排序。
(b)在a中进行的一组10个单样本t检验的最显著结果对应的95%置信区间的100个实例。
另一个很容易误解P值的常见分析是选择预测模型进行多元回归或分类。
为了说明这是如何发生的,对10个生理变量进行了1000次模拟,和之前一样,这些变量是随机的,彼此独立,也独立于SBP。
然后应用正向选择来确定统计预测收缩压的变量。
在这个选择过程中,从模型中没有变量开始,迭代地添加提供统计上最显著改进的变量,重复这个过程,直到没有进一步的改进为止。
图3 (a)从1000次模拟中选择0(正确数字)至6的预测因子作为解释。
(b) a中预测因子个数错误(k > 0)的828个案例f检验的R2(上)和P值(下)分布情况。
首先,如果同时拟合所有10个变量并在P≤0.05时进行检验,如预期的那样,只有5%的时间拒绝预测因素和SBP之间没有关联的原假设。
然而,使用正向逐步变量选择,在1000次模拟中仅172次正确地识别出0个变量为预测变量(图3a)。
有82.8%的次数拒绝原假设,并观察到极低的P值(图3b)。结果有一个非常高的错误发现率。
逐步回归在预测因子选择上具有更大的灵活性,可以进一步提高错误发现率。
虽然最近有一些关于模型选择后的推断的工作,但这些是仅在有限条件下工作的近似。
模型选择后,验证模型和评估模型拟合优度的唯一普遍接受的方法是使用独立的检验样本。
到目前为止,只讨论了最简单的情况,即假定的预测因子是独立的。预测因子之间的依赖性使问题复杂化——如果某个预测因子碰巧在统计上显著,那么其他相关预测因子也更可能在统计上显著,这似乎会增加显著结果的权重。
例如,可能有几个相关的代谢物作为预测因素。当其中一个被选中时,其他的可能也会被拉进模型作为预测者,创造一个容易解释(但错误的)的生物学解释。
研究显著性的另一个问题是过度解释统计显著性和生物学显著性之间的关系。例如假设发现了一种药物,可以平均降低10%的人群标准偏差,或大约2毫米汞柱。这不大可能是与医学相关的减少。如果样本量为10,检测如此小的变化的能力仅为9%,但如果样本量为1000,则上升到93.5%(使用单侧配对t检验)。
如果样本量足够大,即使很小,研究也可以正确地识别出非零效应。然而,为了理解效应的生物学相关性,我们需要估计效应的大小,例如置信区间。在上述例子中,计算2 mm Hg±1 mm Hg的95%置信区间将使我们能够确定缺乏生物学相关性。
相比之下,仅仅声明发现了显著的下降会掩盖这样一个事实,即该结果虽然在统计学上显著,但不太可能具有生物学相关性,因为在置信区间报告的收缩压下降是如此之小。
总结,仅靠P值不靠谱,仅靠置信区间和回归也不靠谱。
需要综合所有统计方法得出结论。