《大话脑成像》之七——假设检验和效果量

费希尔推荐您欣赏这篇文章并关注思影科技!

又到了新一期与读者见面的时候,这期内容可能有点难,有的人会说高端玩家,你膨胀了,你不带我们玩了,不存在的,我还是你们的真心老铁。

在MRI脑影像领域,统计是几乎必不可少的一环。很多软件如SPM,FSL都可以进行统计分析。我们习惯了点点点。但这背后的机理是什么?

首先要有原假设H0(一般假设某种效应不存在)和备择假设H1(假设效应存在)。然后统计推断得到P值,如果P值很小(比如P<0.05),说明这件事情发生是小概率事件,原假设不成立,从而判定效应存在(是不是与以前学的反证法过程类似)。如果P值过大(如P>0.05),这时候接受原假设。如果P=0.05怎么办?只能说这是一个尴尬的P值,有人称在P在0.05 附近时为边缘显著(当然也有人不认可这种边缘显著)。这里还有个有趣的问题,为什么要以0.05作为显著性的临界值?这个只能问问费希尔(据说是靠费希尔当时神奇的直觉感应到的!!!搞数学的这帮人的世界,一般人进入不了)

下面进入严肃的问题,来了解统计学中一些重要的概念。

举一个实际的例子。环保局要检查某个工厂污染排放是否有问题。假定污染排放量的上限是3。原假设是该工厂污染排放没有问题,环保局派人进行抽样调查,发现该工厂的污染排放量是4,那么我们是否就可以下结论说该工厂有问题。不是!我们还需假设检验,得到P值,如果P>0.05,我们就认为污染排放量4是由于随机抽样误差引起的(刚好抽到了污染多的地方)。如果P<0.05,说明该工厂污染严重。这里注意下。我们说该工厂污染严重有一定几率是错的,即该工厂没有污染,而环保局认为它污染严重(冤枉别人),这种错误称之为I型错误(也叫假阳性率)。还有一种情况,是该工厂污染严重,而环保局认为它没有污染(包庇工厂),这种错误称之为II型错误。具体看下图:

上面图表有两种正确的结果。一是工厂没污染,环保局鉴定过后确实没污染;二是工厂有污染,环保局鉴定后确实污染。这两种结果无需过多关注。我们更感兴趣的是I型错误和II型错误。

那么哪种错误更严重?对于环保局来说,肯定不能冤枉别人,所以应考虑控制I型错误。II型错误的后果是:工厂继续污染,没有得到惩罚,周围百姓继续忍受污染。对于周围百姓来讲,要控制II型错误。那么一个理想的方案是把I和II型错误都控制很小,然而现实是不可能的!!!!!比如要把P控制在P<0.0000000000001,这样我们才拒绝H0(非常小心求证)。那么要找1000条污染证据才能让P达到这样小。但事实上,结果我们只找到20条证据,这时候自己都会对自己说:证据这么少,这个工厂应该没有污染吧!看,II型错误显著上升了。那么有没有办法在其他条件一定的情况下,降低II型错误呢? 唯一的办法就是增加样本量(样本量增多,就有可能找到更多的证据)!!

下面介绍Power。Power=1 - II型错误。II型错误是工厂确实污染,环保局认为没污染。那么Power就是工厂确实污染,环保局认为工厂也污染(正确打击了这种危害性工厂)。所以Power指的是对真实存在的差异正确检测出来的能力。Power越大说明检测差异的能力越大。一种统计方法,即使差异再小,它都能把该差异检测出来,就说该统计方法的Power很大。比如比较两组人的ALFF,如果该统计方法的power=0.8,就是说10个脑区有真实差异,我就能检测出来8个。

下面介绍效果量。

当我们辛辛苦苦收集完数据,统计结果也显著(P值那是相当小),觉得非常perfect的时候,突然审稿人来了一句:请报一下研究的效果量!。你不觉会问:这是什么东东?

效果量,英文名为effectsize。假设对两组数据的均数差异进行统计推断,会得到统计值T值和P值,如果P<0.05,那么就说该差异显著。问题是这样的显著性差异在实际中有没有用?统计推断会受样本影响。比如调查男女身高的差异,在重庆收集了一批样本,发现男性身高显著高于女性。那么这种结论能否推广到其它城市?显然不能。统计推断还会受样本大小的影响。比如研究某治疗方法对治疗抑郁症是否有效,实际结果是实验组比控制组平均高4分,两组人数都是12人,标准差都是8。可以计算P>0.05,不显著。但当两组的人数增加到100(均数差异和标准差不变),差异极其显著。而下结论说该治疗方法有显著效果是不令人信服的。也就是说通过增大样本量达到的统计显著可能并没有实际效果。如果P值很小,但是效果量也很小,就说明即使该治疗方法效果显著,但并不能在实际当中使用。只有那种P值小,效果量也大的治疗方法才能推广使用。

所以效果量反应的是该差异在实际上是否“显著”(不受样本容量大小的影响),而P值只反应该差异在统计上是否显著。比如对于男女人数的显著差异(假设男人数>女人数),如果效果量大,表明随便往哪条大街上一站,就能看到男人多于女人。如果效果量很小,那么男人多于女人这种现象可能只限于某局部区域(如某某理工类高校!!!)。正因为效果量重要,所以美国心理学会1994年就发出通知,要求公开发表的研究报告需包含效果量的测定结果。

图2.Cohen’s d图示例

下面介绍几种效果量的计算方法:

原文发布于微信公众号 - 思影科技(siyingkeji)

原文发表时间:2017-12-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【WWW2018】网络表示学习Tutorial(附下载)

3322
来自专栏机器之心

深度 | 如何保证算法公正性?ICML 2018两篇获奖论文解读

第一篇缩略版本:公正反而会伤害弱势群体么?有一定情况下是的:对弱势群体降低门槛会致使他们无法完成期预期目标,使他们信用度降低,造成更长久的伤害。我们不仅要考虑算...

1422
来自专栏专知

【ACMMM2017硅谷盛宴】多媒体领域各大奖项出炉!电子科大斩获最佳论文!中科院自动化所多媒体计算组获得IEEE期刊最佳论文!

【导读】第25届ACM国际多媒体会议(ACM International Conference onMultimedia, 简称ACM MM)于2017年10月...

3907
来自专栏PPV课数据科学社区

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

? 《冰与火之歌》书迷遍布全球。该小说凭借其丰富的人物设置受到广大书迷青睐。然而,在马丁( Martin )笔下,无论好人、坏人,主角、配角都难逃命运的捉弄。...

3597
来自专栏机器之心

前沿 | 机器学习助力医疗,通过数据分析发现近6000种新病毒

选自Nature 作者:Amy Maxmen 机器之心编译 参与:黄小天、刘晓坤 最近,研究者借助 AI 技术发现了近 6000 种前所未闻的新病毒,这一工作已...

3459
来自专栏量子位

学AI的高中生还有5秒钟到达战场,请90后叔叔阿姨做好准备

这本给高中生的人工智能选修教材让许多人惊诧:现在高中生都这么前沿了么?甚至在海外,也有许多网友将其视为中国AI进一步崛起的一个证明。

1121
来自专栏大数据挖掘DT机器学习

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

本文内容翻译并编辑自 Bayesian Survival Analysis in A Song of Ice and Fire,by Erin Pierce ...

3164
来自专栏大数据文摘

贺中国男子接力获银牌,看数据如何主力体育!

2727
来自专栏ATYUN订阅号

Neural Concept利用机器学习开发超级空气动力学自行车

在德克萨斯州达拉斯市举行的2018年超级计算大会上,总部位于瑞士的初创公司Neural Concept展示了他们的超级空气动力学自行车。

1176
来自专栏量子位

这梦一般的街景,全是AI伪造的 | 把GAN秒成渣渣的paper+code

李杉 李林 编译整理 量子位 报道 | 公众号 QbitAI ? △ 『凡所有相,皆是虚妄』 上面这张德国街道图片,乍一看像是行车记录仪拍的,又好像谷歌街景照片...

4516

扫码关注云+社区

领取腾讯云代金券