全球十五年脑神经研究并未作废,人工智能大国竞争继续

【新智元导读】日前有媒体报道,一篇PNAS论文的发现让“15年的脑神经科学研究作废”。脑科学正是大国竞争之地,相关研究也与人工智能发展联系紧密,该结果真的具有这么大的影响力?新智元分析认为,该论文证明了在多种分析fMRI数据的方法中,有一种在特定情况下使用会导致误差很大。作者用词不慎加上媒体夸大报道,弄出了一场闹剧。脑神经及认知科学的研究还将继续,在人工智能领域,中国也将面临更加激烈的竞争。

PNAS日前发表了一篇论文——瑞典医学信息学和医学成像研究人员 Anders Eklund、Hans Knutsson 和英国统计学研究人员 Thomas E. Nichols 合著的 “Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates”。其中,第一作者 Anders Eklund 还拥有统计学和机器学习背景。

这篇论文发布后,立即在世界范围内引发了媒体——而非学术界——热议。

英文网站已不用提(连《福布斯》都有报道),单是搜索中文网站就可以发现如下标题:

  • fMRI源头可能就错了,4万篇文献可能被打脸!
  • 上万项研究采用的技术被质疑-fMRI|AFNI|功能性磁共振成像
  • 统计程序出bug,15年来的大脑研究作废?

严格说,这些标题里加了“可能”、“?”,但肯定的语气毋庸置疑。

再看论文原文,作者的确是在摘要里写道:

“In theory, we should find 5% false positives (for a significance threshold of 5%), but instead we found that the most common software packages for fMRI analysis (SPM, FSL, AFNI) can result in false-positive rates of up to 70%. These results question the validity of some 40,000 fMRI studies and may have a large impact on the interpretation of neuroimaging results.”

脑科学正是大国角逐的领域。2013年初,欧盟率先宣布“人脑工程”,投入10亿欧元将其作为欧盟未来10年的“新兴旗舰技术项目”。当年4月,美国政府公布“脑计划”,预计在未来12年间共入45亿美元用于研发。2014年,日本也发起了“大脑研究计划”。

2015年,“中国脑计划”正式启动,预计从认识脑、保护脑和模拟脑3个方面进行研究。脑科学与类脑研究在“十三五”规划中被定为重大科技创新项目和工程,“中国脑计划”的目标是,未来15年内,在脑科学、脑疾病早期诊断与干预、类脑智能器件这3大前沿领域取得国际领先的成果。

2015年年初,中国科学院外籍院士、美国国家科学院院士蒲慕明在接受新华社采访时表示,脑科学和类脑研究的全球性热潮反映了科学界和各国政府的3大共识:

  1. 脑科学是人类理解自身的终极疆域,是21世纪最重要的前沿学科之一;
  2. 脑疾病已对社会造成了巨大的经济负担,脑科学发展将对脑疾病的诊疗作出关键贡献;
  3. 计算机技术和人工智能发展至今已面临瓶颈,对人脑认知神经机制的理解可能为新一代人工智能算法和器件的研发带来新启发。

对人脑认知神经机制的理解,无疑将大大推动人工智能研究。2016年4月6日,国务院总理李克强主持召开国务院常务会议,三部委联合印发《机器人产业发展规划(2016-2020年)》,明确了我国机器人产业未来5年发展的总体目标。

然而,这个时候竟然有论文提出,过去15年的脑科学研究成果都无效?!

15年的脑神经科学研究并没作废

这篇PNAS论文建立在Eklund等人过去研究的基础之上(参考文献中有3篇Eklund是第一作者的论文)。之前的论文讲的是GPU处理医学成像的历史,或者用不同数据集在CPU/CPU上测试。

这一次,Eklund等人得出了新的结论,他们发现fMRI常用软件分析包AFNI中有一个BUG(而且存在了15年都没被发现),因此程序在判断脑部fMRI成像激活的情况时,会导致结果呈假阳性(也即虚报结果)的几率升高。

这确实是个问题,因为会放宽统计标准,也就意味着很多研究得出的效应可能并不存在。但注意看定语,这个BUG只影响fMRI常用软件分析包中的一种——AFNI当中的函数3dClusterSim。

因此,BUG确实存在,影响范围还不小,但并不会像一些媒体报道的那样,将脑神经科学研究倒退15年——很显然,并非所有的脑神经科学研究都会使用fMRI(虽然fMRI使用确实广泛),而且这个BUG只影响涉及脑部激活图像的研究(虽然这类研究非常之多)。最重要的是,其他fMRI分析工具也存在假阳性变高的问题。

此外,论文中还提到了这个BUG最高能将误差基准(一般为5%)提升到70%,这一结论也很惊人。不过,“up to 70%”只表示最高能达到70%,而非“等于70%”。

根据现代颅相学从业者“沉默的马大爷”在知乎上的回答(已取得授权):

“在科学研究中,一个效应是否存在,通常会设定一个统计学标准,达到这个标准就认为结果显著(阳性结果)。对于fMRI数据,有两种常用的标准,一种我们称之为A(基于voxel激活强度),另一种我们称之为B(基于cluster大小)。对于B,又有两种主要的参数设置方法,一种是X(用voxel水平p<.01界定cluster),一种是Y(用voxel水平p<.001界定cluster)。这篇文章主要质疑的是B+X(基于cluster大小的阈限,用voxel水平p<.01界定cluster)。作者找到了一批理论上讲不应该得到显著结果的数据(静息态fMRI+随机生成实验组),使用几种常用的数据分析软件作分析,发现如果采用B+X的思路分析,虚报结果的概率很高,可以达到70%(基线水平应该是5%)。如果使用B+Y,也会有偏差,但没那么大。”

简单说,这篇论文证明了在多种分析方法中,有一种在特定情况下用起来误差会很大。

论文作者重新计算,结果令他伤心

论文其中一位作者、英国统计学研究人员 Thomas E. Nichols 事后在博客上发表了一篇文章,坦承自己“后悔”使用了“4万”这个数字。Nichols 表示,他们只是想“尽量向fMRI业界强调该发现的重要性”(However, there is one number I regret: 40,000. In trying to refer to the importance of the fMRI discipline, we used an estimate of the entire fMRI literature as number of studies impinged by our findings.)

接下来,Nichols 话锋一转,表示虽然用“4万”是错的,但 cluster size inference 是 inference 的主流方法,因此他们的发现应该会影响绝大部分的论文。

于是,作为统计学家,Nichols大致计算了一下,结果发现,只有1.5万篇发表论文在多重比较数据时使用了 cluster size inference 这种方法。而其中,只有3500篇符合他们的标准 CDT of P=0.01。

换句话说,受影响的论文——3500/40000——大约占全部的8.75%(有意思的是,Nichols在这时候用的都是四舍五入的9%)。更何况,在这3500篇论文中,不能排除有个别采用非参数 inference 方法的。不仅如此,Nicolas本人也表示,至于那3500篇论文的结果是不是都是错的,也要根据情况具体分析。

Nichols 对此表示震惊:“我真心以为这个数字会更高一些,只是我没想到还有很多研究根本就没使用多重检验校正的方法。”

媒体放大效应

在那篇博文中,Nichols 表示,自己的整个职业生涯都在从事比较神经成像参数 inference 和非参数 inference 的工作。这篇论文让他自豪的地方在于:

  1. 使用了大量静息态fMRI数据,终于有样本可以反应真实数据的时间和空间结构对结果的影响;
  2. 彻底弄清楚了为什么参数方法不行。

实际上,早在2012年,Eklund等人便开始研究 fMRI 分析软件误差的问题。在2012年那篇题为 “Does parametric fMRI analysis with SPM yield valid results?—An empirical study of 1484 rest datasets” 的论文中,Eklund等人指出,“随着fMRI应用愈发广泛,我们需要建立更好的用于分析静息态fMRI数据的时序模型”。

与此类似,Eklund等人在PNAS这篇论文的结尾写道,要更正4万篇论文的结果显然是不可能的,他们认为fMRI业界应当集中精力验证现有的方法。

可以看出,作者强调的是让已有的数据得到准确分析(非常讽刺的是他们自己用错了一个数据)。论文最后还用整整一个自然段论述数据共享的问题,“没有分析方法是完美的,未来肯定会有新的局限和问题,我们号召所有的作者至少共享他们的统计结果,要是愿意把数据全部公开就再好不过了”。

若非媒体介入,这项研究或许只会在fMRI圈子里引发讨论。而且,AFNI标准宽松是业内人士都知道的事情。

这件事应该不至于让这篇论文撤稿,但它再次印证了严谨的重要性。从传播的角度讲,“15年的研究作废”、“4万篇论文无效”确实很吸引人,而且在某种程度上说,媒体曝光让这项研究得到了更快的“评议”。

但是,新智元在以前的文章里也讨论过,学术界对科研成果的评价有明确的标准,为了行业健康发展,媒体和投资人同样应该以更高的标准衡量他们眼前的东西。

脑神经科学的研究还将继续,接下来无论是脑神经科学还是人工智能,中国面对的将是更加激烈的竞争。

(沉默的马大爷对本文亦有贡献)

参考资料

  1. http://www.forbes.com/sites/brucelee/2016/07/06/could-brain-research-for-the-past-15-years-be-wrong/#3975fbc55836
  2. http://www.pnas.org/content/early/2016/06/27/1602413113.full
  3. http://www.sciencedirect.com/science/article/pii/S1053811912003825?np=y
  4. http://www.medicalimageanalysisjournal.com/article/S1361-8415(13)00082-0/abstract

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

视频详解Google和MIT新算法:滤掉遮挡物

256100
来自专栏VRPinea

加州大学正研发新型全息技术,可欺骗大脑和改变记忆

17260
来自专栏新智元

【Nature 特稿】机器学习算法重构威尼斯千年历史,成为“谷歌和 Facebook”

【新智元导读】瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 利用机器学习算法,将威尼斯多年的历史以动态的数字化形式传承下来...

39190
来自专栏大数据文摘

基于大数据技术的手机用户画像与征信研究

29430
来自专栏AI科技大本营的专栏

小米刚出的刷脸手机Note 3,刷的是便捷还是危险?

今天,也就是 2017 年 9 月 11 日,小米发布了两款手机产品 Note 3 和 MIX 2, 其中,Note 3推出了一项新功能,人脸解锁。 以后,请忘...

31240
来自专栏Data Analysis & Viz

知乎上8个100K+高赞回答(筛选自63万个回答)

最近知乎首页上老是看到这个话题:《知乎上的高票答案就是好的吗?》,很好奇目前高赞回答都有哪些?各有多少赞同数?于是继续这些天爬知乎数据的节奏,以大小V主页的回答...

13230
来自专栏PPV课数据科学社区

好文丨数据挖掘界领军人物谢邦昌:深度剖析Data Mining

有问题直接微信我吧! 大家好,PPV课大数据微信开通了人工客服,大家有问题可以在工作时间:9:00-18:00直接通过微信与客服联系! ? 谢邦昌 深度剖析Da...

33670
来自专栏玉树芝兰

白话开题报告写作

我让自己的研究生看了许多关于研究方法的书籍,并且要求写读后感。他们写读后感的时候一个个都很明白,真正到做开题报告就又糊涂了。

10440
来自专栏AI科技评论

NIPS改名被否,而在改名分歧之外我们能做的还有很多

AI 科技评论按:作为人工智能 & 机器学习最悠久、最重磅的学术会议之一,NIPS 因为双关语考虑改名的事情今年 4 月就闹得沸沸扬扬。从 NIPS 通过官方推...

10240
来自专栏大数据文摘

快讯 | Reddit关闭Deepfakes论坛,遏制“非自愿换脸情色”

49040

扫码关注云+社区

领取腾讯云代金券