前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >elife: 写作及审稿中常见的十个统计错误

elife: 写作及审稿中常见的十个统计错误

作者头像
Listenlii-生物信息知识分享
发布2020-07-10 11:30:42
8490
发布2020-07-10 11:30:42
举报
文章被收录于专栏:Listenlii的生物信息笔记

elife: 写作及审稿中常见的十个统计错误

Year: 2019

前 言

本文列出了文献中出现的一些最常见的统计错误。这些错误的根源在于无效的实验设计、不恰当的分析或有缺陷的推理。作者对如何识别和解决这些错误为研究者和审稿人提供了建议。每条错误之后还有Further reading提供之前关于此错误的讨论。

在作者看来,防止错误结果被发表的最合适的检查点是期刊上的同行评审过程,或者使可以跟随预印本发表的在线讨论。

本文列举的所有这些错误都是众所周知的,已经有很多关于它们的文章,但这些错误继续出现在期刊上。

这些错误通常是相互依赖的,一个错误可能会影响其他错误,进而导致很多错误。

01

1.缺乏适当的control或condition组

错误描述:

对于任何研究处理对变量随时间变化影响的研究,比较处理的效果和对照的效果是至关重要的。

有时会包含一组控制或条件,但由于没有包括可能影响所研究变量的关键因素,使得设计并不充分。其他常见的偏差来自于运行一个没有足够能力来检测变化的小控制组,或者有一个有不同基准值测量的控制组,这可能导致虚假的相互作用。

控制组和试验组应该同时取样,并进行随机分配,以使偏差最小化。理想情况下控制组作应在设计和统计能力方面与实验组相同,仅在特定刺激维度或操纵下的变量上有所不同。

如何检测这种错误:

结论是根据单一组的数据得出的,没有充分的控制组。控制组没有考虑到实验的关键特征。

解决办法:

如果实验设计不允许将时间的影响与干预(intervention)的影响分开,那么关于干预影响的结论应该作为试探性的结论被提出。

我的总结:设置合理的对照并对变量进行尽可能准确的控制。

02

2. 解释两种效应之间的比较,而不直接比较它们

错误描述:

研究人员经常根据干预的影响得出他们的结论,如干预在实验组产生显著的影响,而相应的影响在控制组不显著,或者实验组的相关性高于对照组。根据这两种独立的测试结果,研究人员有时会暗示,在实验组的效果大于在控制组的效果。这种错误推断很常见,但不正确。

如图1A所示,X和Y是两个变量,每个变量分为两组,两组之间相关性一样(红线和黑线)。但是当两组分别与0比较时,那么对于组A的相关性是显著的,而对组B的显著性是不显著的。图1B类似,CD两组均值相同而D组内差异更大。两组直接比较没有显著差异,而都与0比较C组却出现了显著差异。

图1 解释两种效应之间的比较,而不直接比较它们。

如何检测这种错误:

当在没有进行统计比较的情况下得出两种效应之间的差异的结论时,就会出现这个问题。在任何情况下,如果研究人员没有进行必要的统计分析而作出推断,就会出现这个问题。

解决办法:

当研究人员想要对不同群体进行对比时,他们应该直接对它们进行比较。两组的相关性可以通过蒙特卡洛模拟进行比较。对于组件的比较,ANOVA是合适的。

我的总结:不同组之间要直接比较;不要找第三个变量,不同组分别和该变量比较。

03

3. 膨胀分析的单位

错误描述:

实验单元(experimental unit)是可以随机独立分配的最小观察值,即可以自由变化的独立值的数量。在经典统计学中,这个单元反映自由度。

例如在推断组的结果时,实验单位是被测试的对象的数量,而不是在每个对象内进行的观察的数量。但不幸的是研究人员往往混淆了这些衡量标准。当自由度增加时,判断统计显著性的临界统计阈值就降低了,如果有真实的效果,就更容易观察到显著的结果。

举个例子,对10名参与者进行干预研究,研究人员感兴趣的是使用简单的回归分析来评估他们的主要指标和临床状况之间是否存在相关性。每个人开始测一次,结束时测一次。他们的分析单位应该是数据点的数量(每个参与者1个,共10个),自由度为8,临界R值为0.63。即如果得到的R值高于这个临界R值,结果都是显著的。但是如果研究人员把参与者前后的测量结合起来,他们最终得到自由度为18,这时临界R值为0.44,即会更容易的观测到显著的效应。这是不合适的,因为这种方法混合了分析单元内部和分析单元之间的结果。

如何检测这种错误:

审稿人应该考虑适当的分析单元。如果一项研究的目的是了解群体效应,那么分析的单位应该反映的是不同受试者之间的差异,而不是受试者内部的差异。

解决办法:

也许这个问题最好的解决方案是使用混合效应线性模型,在这个模型中,研究人员可以将受试者内部的变异性定义为固定效应,而受试者之间的变异性定义为随机效应。

对于简单的回归分析,研究人员有几个可行的解决方案,其中最简单的是分别计算每个观测值的相关性,并根据现有的自由度解释R值。还可以对观察值求平均,或者分别计算相关性然后对结果的R值进行平均。

我的总结:明确比较的对象。自由度的增加会使得结果更偏向显著。

混合效应线性模型之前文章介绍过,见:线性混合模型

04

4. 虚假相关性

错误描述:

相关性是评估两个变量之间关联程度的重要工具。然而参数相关的使用,如Pearson依赖于一系列假设,而违反这些假设可能会导致虚假的相关。离群值的存在会影响相关性,如图2所示。

需要注意的是,一个离群值可能很好地提供了一个符合你试图发现的现象规律的真实观察,换句话说观察本身不一定是假的。因此去除极端数据点也应非常谨慎地考虑。

图2 虚假的相关性:离群值对相关性的影响。A到C,加入单个离群值对相关性的影响。随着红色的离群值越来越偏离其他数据,相关性反而不断升高。

D到F,加入一组离群值对相关性的影响。随着样本组和离群值组距离增大,相关性也在不断增大。不考虑数据组间的距离也会得到假的相关性。

如何检测这种错误:

审稿人应该特别注意那些没有散点图的相关性,并考虑当数据点被丢弃时是否提供了充分的理由。此外还需要确保在汇总数据时考虑到组间或条件间的差异。

解决办法:

在大多数情况下,鲁棒的相关性方法(例如boot strapping, data winsorizing, skip correlation)应该是首选,因为这些测试考虑到了数据的结构,它们对异常值不那么敏感。当使用参数统计时,应该对违反关键假设的数据进行筛选,例如数据点的独立性以及异常值的存在。

我的总结:做相关性的时候要加上散点图,看数据具体的分布

05

5. 小样本的使用

错误描述:

当样本量较小时,只能检测到较大的效应,从而对真实效应量的估计存在较大的不确定性,导致对实际效应量的高估。在使用显著性阈值alpha=0.05的统计学中,在没有实际效果的情况下,5%的统计检验将产生显著结果(假阳性;TypeI error)。然而研究人员更倾向于认为高相关性 (如R>0.5)比中等相关性(如R=0.2)更稳健。

在小样本的情况下,这些假阳性的效应很大,这就导致了显著性谬误:如果在小样本情况下,效应那么大,那它只能是真的。

关键的是,更大的相关性并不是两个变量之间有更强的关系的结果,这只是因为小样本更加高估了实际相关系数。

例如,当对N = 15的两个不相关变量进行抽样时,模拟的假正相关大致在0.5-0.75之间。而当N = 100时,模拟的假正相关大致在0.2-0.25。

此外,样本量小的设计也更容易丢失数据中真实存在的效应(Type II error)。对于一个给定的效应大小(例如,两组之间的差异),在更大的样本量检测效果的机会更大。因此大样本就减少了在实际存在某个效应时检测不到的可能性。

与样本容量小有关的另一个问题是,样本的分布更容易偏离正态,有限的样本容量往往无法严格检验正态假设。在回归分析中,分布的偏差可能会产生极端的异常值。

如何检测这种错误:

审稿人应该严格审查论文中使用的样本量,判断样本量是否足够。

解决办法:

研究人员应该首先提供证据证明他们已经有足够的能力来检测效应,比如通过一个先验的统计分析,或者重复他们的研究。

在样本容量可能有内在限制的情况下(例如在罕见临床人群或非人灵长类动物的研究中),应努力增加重复,并包括充分的控制(例如建立置信区间)。一些统计方法也可用于此种情况,如the Crawford t-test。

我的总结:小样本会增加两类错误的几率,并使得数据分布产生偏差。设计实验的时候尽可能的增大样本量。

06

6. 循环分析

错误描述:

循环分析是一种回顾性地选择数据特征来描述因变量的分析形式,从而导致统计检验的失真。循环分析可以采取多种形式和形式,但它本质上与回收相同的数据有关,首先对测试变量进行表征,然后从它们进行统计推断,因此通常被称为‘double dipping’。

最常见的是,循环分析用于划分(如分组,分箱)或减少(如定义一个感兴趣的区域,去除异常值)完整数据集,使用的选择标准是回顾性的和内在相关的统计结果。如根据实验结果人为的把数据分成几组,再在此基础上进行分析。

循环分析的另一种常见形式是在因变量和自变量之间建立依赖关系。

循环分析减小了噪声,夸大统计结果,导致统计推断扭曲,因此无效。

如何检测这种错误:

循环分析表现在许多不同的形式中,但在原则上,当统计检验方法因选择标准而偏向于被检验的假设时,就会出现循环分析。

在某些情况下这是非常明显的。例如如果分析是基于选择的数据,以显示感兴趣的影响,或内在相关的影响。

审稿人应警惕不可能达到的高效应量,这些效应量在理论上可能不可信,并且基于相对不可靠的测量方法(如果两种测量方法内部一致性较差,则限制了确定有意义相关性的可能性)。在这种情况下,审稿人应该向作者询问选择标准和效应之间的独立性。

解决办法:

预先定义分析标准并独立于数据将保护研究人员免于循环分析。另外,由于循环分析通过减小噪音来膨胀预期的效果,最直接的解决方案是使用不同的数据集(或数据集的不同部分)来指定分析的参数和测试你的预测。如从数据中选一些子组来重新分析并检查子组之间的差异。如果合适的话,审稿人可以要求作者进行模拟分析,以证明感兴趣的结果不受噪声分布和选择标准的约束。

我的总结:这种错误在描述性的研究中真的是尤为常见了。测序数据做个多样性,按照样本之间的距离进行分组,再进行统计检验和后续的分析。这样会高估统计检验的效果,并得到错误的结论。对于循环分析要时刻警惕。

07

7. 分析的灵活性:p-hacking

错误描述:

在数据分析中使用灵活性的方法(如改变参数、添加协变量、预处理流程、去除离群值)来增加获得显著P值的概率。这是因为规范的统计依赖于概率,因此我们做的测试越多,遇到假阳性结果的可能性就越大。

因此,在给定的数据集中观察一个显著的P值并不复杂,人们总是可以对任何显著的影响给出一个合理的解释,尤其是在没有具体预测的情况下。

这个问题可以通过使用标准化的分析方法,或进行复制研究来改善。

如何检测这种错误:

分析的灵活性很难发现,因为研究人员很少披露所有必要的信息。审稿人可以估计是否所有的分析选择都是合理的,同样的分析是否在以前的文章中使用,研究人员是否提出了一个有问题的新变量,或者他们是否收集了大量的信息,而只报告了少数重要的信息。

解决办法:

研究人员在报告结果时应该透明,例如表明是预先计划的分析还是探索性分析,结果是预测的还是未预料的结果。

使用灵活数据分析的探索性分析是好的,如果它们以透明的方式报告和解释,特别是如果它们作为预先指定分析的复制的基础。

这样的分析可以为进一步研究提供有价值的理由,但不能成为有力结论的基础。

我的总结:这一点我之前文章的思想一样,详见结果正确 or 过程正确?

08

8. 多次比较时未能校正

错误描述:

研究人员在探究效应时,往往会探究多个条件对多个变量的影响,有时会有一个未充分确定的先验假设。这种实践被称为探索性分析,与验证性分析相对。当使用频率统计时,探索性分析期间进行多次比较可以对显著性结果的解释产生深远的影响。

在任何涉及两种以上条件(或两组比较)的实验设计中,探索性分析都会涉及多次比较,即使不存在效果,也会增加检测到效果的概率(假阳性,type I error)。在这种情况下,因素的数量越多,可以执行的测试数量就越多。结果观察到假阳性的概率增加。例如,在一个2×3×3的实验设计中,即使因素之间没有影响,发现至少一个显著的主效应或交互作用的概率是30%。当进行多个独立比较时,这个问题尤其突出。

如何检测这种错误:

通过自变量的数量和执行分析的数量,可以检测这种错误。如果这些变量中只有一个与因变量相关,那么其他变量很可能被包括进来,以增加获得显著结果的机会。

因此在进行大量变量的探索性分析时,研究人员在没有明确理由的情况下对多次比较不进行校正是不可接受的。即使研究人员提供了一个粗略的预测,如果这个预测可以在多次独立比较中进行测试,那么需要对多次比较进行校正。

解决办法:

研究人员应公开所有测量变量,并正确使用多重比较程序。目前多种比较矫正的方法也很多,一些比另一些方法更容易被接受。因此仅仅存在某种形式的修正可能是不够的。

我的总结:多重检验的校正我之前也写过,详见多重检验校正与Bonferroni校正

09

9. 过度解释不重要的结果

错误描述

当使用频率统计时,科学家一般应用统计阈值(通常alpha=0.05)来判定统计显著性。关于这个阈值的任意性已经有很多文章讨论过,也有人提出了替代方法。曲解统计检验的结果,尤其是当结果不显著的时候,也是非常有问题但极其常见的错误。

不显著的P值可能有很多含义,如模糊的结果,或真正的空结果,或检测能力不足而出现的结果。

因此,如果研究者希望解释一个不显著的结果作为支持证据来反对假设,他们需要证明这个证据是有意义的。对于这个目的,P值本身是不够的。

如何检测这种错误:

研究人员可能解释或描述一个不显著的P值,表明一个影响不存在。这个错误非常常见,审稿人应该突出这一问题。

解决办法:

应提供效应量和P值以便提供关于效应大小的信息。如在大样本量的研究中,一个不显著的效应在量上也非常小,那么它在理论上就不太可能有意义,而一个中等效应量的效应可能需要进一步的研究。

如果可能的话,研究人员应该考虑使用统计方法来区分不充分(或不明确)的证据和支持零假设的证据。或者研究人员可能已经预先确定了他们是否有足够的统计能力来确定期望的效果,或者确定这个先验效应的置信区间是否包含零。否则,研究者不应过度解释不显著的结果,而仅仅将其描述为不显著。

我的总结:不显著的就摆结果就好了,不要轻易下结论,let it go~

10

10. 相关性和因果关系

错误描述:

这可能是解释统计结果时最古老和最常见的错误。相关性常被用来探究两个变量之间的关系。当发现两个变量显著相关时,人们往往倾向于认为一个是另一个的原因。然而这是不正确的。仅仅因为两个变量的变异性似乎线性地同时出现,并不一定意味着它们之间有因果关系,即使这种联系是可信的。

例如,不同国家的年度巧克力消费量和诺贝尔奖得主人数之间存在显著的相关性(r=0.79; p<0.001)。这导致了一种(不正确的)建议,即巧克力的摄入为诺贝尔奖得主的成长提供了营养基础。相关性本身不能作为因果关系的证据。相关性可能反映直接或反向的因果关系,但也可能是由于一个(未知的)共同原因,或者仅仅是简单的巧合结果。

如何检测这种错误:

当研究人员展示两个或多个变量之间的联系,使用因果语言时他们很可能混淆了相关性和因果关系。研究者应该只有在一个变量被精确操纵时才使用因果语言,即使这样,他们也应该对第三个变量或混淆因素的作用保持谨慎。

解决办法:

如果可能的话,研究者应该尝试探索与第三个变量的关系,为他们的解释提供进一步的支持。否则,当证据具有相关性时,应避免使用因果性语言。

我的总结:相关性没有方向,不涉因果。

结 语

避免这十个错误是确保结果不会被严重误解的重要的第一步。然而,这个列表的一个关键假设是显著性检验(由P值表示)对于科学推论是有意义的。目前,关于零假设显著性检验的有效性和显著性阈值的使用一直存在争议。

作者认为,没有一个P值能够揭示一个联系或效果的合理性、存在性、真实性或重要性。

然而,禁止P值并不一定能使研究人员对他们的发现做出正确的推断。

P值可以提供一个有价值的结果描述,目前可以帮助科学传播。

PS:这篇文章好多句子挺难读的。顺便找到了2017年一篇elife文章的解读:

eLIFE | 科学论文越来越难读,连研究生都读不懂了

一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

目前能力有限,尚不能创造知识,只是知识的搬运工。

欢迎分享,转载请联系我。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档