《大话脑成像》之七——假设检验和效果量

用户1279583

发布于 2018-04-08 16:07:57

6240

发布于 2018-04-08 16:07:57

文章被收录于专栏：思影科技

费希尔推荐您欣赏这篇文章并关注思影科技！

又到了新一期与读者见面的时候，这期内容可能有点难，有的人会说高端玩家，你膨胀了，你不带我们玩了，不存在的，我还是你们的真心老铁。

在MRI脑影像领域，统计是几乎必不可少的一环。很多软件如SPM，FSL都可以进行统计分析。我们习惯了点点点。但这背后的机理是什么？

首先要有原假设H0（一般假设某种效应不存在）和备择假设H1（假设效应存在）。然后统计推断得到P值，如果P值很小（比如P<0.05），说明这件事情发生是小概率事件，原假设不成立，从而判定效应存在（是不是与以前学的反证法过程类似）。如果P值过大（如P>0.05），这时候接受原假设。如果P=0.05怎么办？只能说这是一个尴尬的P值，有人称在P在0.05 附近时为边缘显著（当然也有人不认可这种边缘显著）。这里还有个有趣的问题，为什么要以0.05作为显著性的临界值？这个只能问问费希尔（据说是靠费希尔当时神奇的直觉感应到的!!!搞数学的这帮人的世界，一般人进入不了）

下面进入严肃的问题，来了解统计学中一些重要的概念。

举一个实际的例子。环保局要检查某个工厂污染排放是否有问题。假定污染排放量的上限是3。原假设是该工厂污染排放没有问题，环保局派人进行抽样调查，发现该工厂的污染排放量是4，那么我们是否就可以下结论说该工厂有问题。不是！我们还需假设检验，得到P值，如果P>0.05，我们就认为污染排放量4是由于随机抽样误差引起的（刚好抽到了污染多的地方）。如果P<0.05，说明该工厂污染严重。这里注意下。我们说该工厂污染严重有一定几率是错的，即该工厂没有污染，而环保局认为它污染严重（冤枉别人），这种错误称之为I型错误（也叫假阳性率）。还有一种情况，是该工厂污染严重，而环保局认为它没有污染（包庇工厂），这种错误称之为II型错误。具体看下图：

上面图表有两种正确的结果。一是工厂没污染，环保局鉴定过后确实没污染；二是工厂有污染，环保局鉴定后确实污染。这两种结果无需过多关注。我们更感兴趣的是I型错误和II型错误。

那么哪种错误更严重？对于环保局来说，肯定不能冤枉别人，所以应考虑控制I型错误。II型错误的后果是：工厂继续污染，没有得到惩罚，周围百姓继续忍受污染。对于周围百姓来讲，要控制II型错误。那么一个理想的方案是把I和II型错误都控制很小，然而现实是不可能的！！！！！比如要把P控制在P<0.0000000000001，这样我们才拒绝H0（非常小心求证）。那么要找1000条污染证据才能让P达到这样小。但事实上，结果我们只找到20条证据，这时候自己都会对自己说：证据这么少，这个工厂应该没有污染吧！看，II型错误显著上升了。那么有没有办法在其他条件一定的情况下，降低II型错误呢? 唯一的办法就是增加样本量（样本量增多，就有可能找到更多的证据）！！

下面介绍Power。Power=1 - II型错误。II型错误是工厂确实污染，环保局认为没污染。那么Power就是工厂确实污染，环保局认为工厂也污染（正确打击了这种危害性工厂）。所以Power指的是对真实存在的差异正确检测出来的能力。Power越大说明检测差异的能力越大。一种统计方法，即使差异再小，它都能把该差异检测出来，就说该统计方法的Power很大。比如比较两组人的ALFF，如果该统计方法的power=0.8，就是说10个脑区有真实差异，我就能检测出来8个。

下面介绍效果量。

当我们辛辛苦苦收集完数据，统计结果也显著（P值那是相当小），觉得非常perfect的时候，突然审稿人来了一句：请报一下研究的效果量！。你不觉会问：这是什么东东？

效果量，英文名为effectsize。假设对两组数据的均数差异进行统计推断，会得到统计值T值和P值，如果P<0.05，那么就说该差异显著。问题是这样的显著性差异在实际中有没有用？统计推断会受样本影响。比如调查男女身高的差异，在重庆收集了一批样本，发现男性身高显著高于女性。那么这种结论能否推广到其它城市？显然不能。统计推断还会受样本大小的影响。比如研究某治疗方法对治疗抑郁症是否有效，实际结果是实验组比控制组平均高4分，两组人数都是12人，标准差都是8。可以计算P>0.05，不显著。但当两组的人数增加到100（均数差异和标准差不变），差异极其显著。而下结论说该治疗方法有显著效果是不令人信服的。也就是说通过增大样本量达到的统计显著可能并没有实际效果。如果P值很小，但是效果量也很小，就说明即使该治疗方法效果显著，但并不能在实际当中使用。只有那种P值小，效果量也大的治疗方法才能推广使用。

所以效果量反应的是该差异在实际上是否“显著”（不受样本容量大小的影响），而P值只反应该差异在统计上是否显著。比如对于男女人数的显著差异（假设男人数>女人数），如果效果量大，表明随便往哪条大街上一站，就能看到男人多于女人。如果效果量很小，那么男人多于女人这种现象可能只限于某局部区域（如某某理工类高校！！！）。正因为效果量重要，所以美国心理学会1994年就发出通知，要求公开发表的研究报告需包含效果量的测定结果。