机器学习论文呼吁“预注册”,事先评审专治“注水研究”!

来源:Nature、Reddit

编辑:大明、三石

【新智元导读】近日,关于“预注册”(Pre-registered)的研究方式在Reddit论坛上引发了热烈讨论。“预注册”是先向期刊提交理论研究和实验设计方案,在评审并接受后,再展开进一步工作的一种方式。Reddit用户呼吁在机器学习领域中也采用这种方式,引发了网友们的热议。

所谓“预注册”研究,通俗点说就是,在实际着手开始研究之前,先将研究假设和实验设计方案等前期重要信息,向欲投稿的学术期刊进行事先注册,由期刊先行组织专家进行同行评议。

如果评议通过,则期刊一般原则性承诺同意发表。然后再进入正式研究和论文撰写、投稿等后续环节。

显然,这一方式与现行的研究和论文发表流程有很大不同。

英国卡迪夫大学的研究人员特别对“预注册”制度及其影响做了首次分析研究。

研究结果表明,采用这种模式,最终产生无效结果(即研究结果无法证明假设)的情形会大大增高,尤其是在心理学领域。这表明“预注册”制度对一些“削足适履”的假结果起到了明显的过滤作用。

传统研究流程中,研究人员为了获得“优质结果”,易产生发表偏见、p值作弊、可重复性低的严重问题

于是,Reddit上今天也掀起机器学习论文也要实行“预注册”的大讨论。

预注册有多好?能够避免“发表偏见”

研究人员指出,在传统的提出假设——设计实验——验证结果——投稿发表的研究流程中,研究人员容易为获得正面结果而产生“发表偏见”,可能会对不利于证明研究假设的结论有意隐瞒,甚至对数据进行篡改等造假作弊手段。

他们认为,在进行研究之前记录下研究假设和实验方案,确实可以取得预期的结果,能够减少为获得正面结果而产生的“发表偏见”。

日前,《Nature》网站也撰文称,“预注册”制度确实可以起到预期的“去伪存真”的作用,提高科学研究的可信度和可重复性。

在开始收集数据之前,先将研究方案进行登记和记录,可能会改变研究结果。图片来源:Ariana Lindquist / Bloomberg / Getty

文中提到,没有获得正面结果的研究往往被归档,从此不见天日,这会导致为获取正面结果而产生的“发表偏见”,损害科学文献的可信度。

现有分析表明,在进行研究之前,对研究方案进行登记和同行评议,可以改善这个问题,并有助于纠正为获取正面结果而产生的发表偏见问题。

来自英国卡迪夫大学的研究人员称,他们的这一研究是对“预注册”研究方式是否有效的第一次分析。结果发现,事先将研究方案进行登记的研究更有可能报告无效的结果。该分析于10月17日发表在PsyArXiv资源库上。

预注册去伪存真:真的能提高研究结果质量

在“预注册”制度下,研究人员需要在研究开始前就向相应期刊提交研究方案。如果研究方案通过了同行评议,该期刊会暂时承诺在研究完成时将论文发表,无论研究结果如何。

这种做法在过去几年中已经开始在科学界出现,这一制度起源于美国法律强制要求的临床试验中的“预登记”制度。目前约有140种期刊使用这种方式,有130份进行预注册的研究报告,其最终研究结果已经发表。

“预注册”制度的支持者希望,该方式能够打击那些可疑的研究活动,比如先看结果,或根本不报告负面结果,然后再回头提出研究假设。

为了考察“预注册”方式是否会增加研究报告无效结果的频率,心理学家Chris Allen和David Mehler分析了生物医学和心理学中113份预登记报告的结果。

在这些研究中,他们考察了296个彼此独立的研究假设,结果发现,总体而言,这些研究后来发表的结果中,有61%不支持最初的假设。对于考察可重复性研究的验证研究,这个数字比例要更高一些,为66%,对于原始研究,这一比例为55%。

来源:PsyArXiv,https://psyarxiv.com/3czyt(2018)。

这些数字远远高于一般科学文献中提出的无效结果的比例,以前的研究表明,研究人员估计该比例在5%到20%之间。

预注册报告的数量呈指数级增长,但研究的代表性还有待提升

不过,荷兰埃因霍温科技大学的心理学研究人员Anne Scheel表示,这项研究可能仍然低估了无效研究结果的真实比例。

据其他研究估计,在心理学中测试中的假设实际上为假的比例可能高达90%,Scheel说。这表明当前科学文献中的实际上的无效结果“与我们期望中不存在任何发表偏见的情况”大不相同。

她表示,这一分析是探索性的,而且研究结果也可以有其他解释。

比如Scheel说,由于采用“预注册”可以或多或少地保证论文发表,人们可能会策略性地使用这种制度,提出一些预期可能无法通过验证的研究假设。

她补充说,“预注册”制度诞生不久,有可能迄今为止发表的研究并不能更广泛地代表心理学领域的情况。 “目前还有很多未知因素,”Scheel说。 “但对于科学家来说,这也是一个非常激动人心的时刻。”

目前,预注册报告的数量正呈指数级增长,Allen现在希望能够进行样本量更大的另一项研究,以便回答之前研究提出的一些问题,而且计划将这项研究也进行“预注册”。

Reddit呼吁ML中采用“预注册”:无效结果会比其他领域有用得多

Reddit上便有位用户抛出了一个讨论:

若是能在机器学习领域中召开预登记实验的会议/期刊就好了。你只要提交理论部分的论文以及实验的设计,然后让评审们进行评估,若是他们觉得OK,你再继续做实验。而且,无论实验结果如何,这篇论文都算是被接受了。

此贴一出,便得到了众多网友的围观与评论,网友Flag_Red评论到:

目前很多机器学习的研究都属于工程学,我觉得在这种情况下,无效结果会比其他领域有用得多。我认为这主要归结于机器学习在工程方面要比理论方面超前很多。 在其他领域中,他们会说:“这是我的假设”,然后再对其进行测试。若结果无效,仍然是一件非常有意思的事情,“我的假设”本应该有效,却不知什么原因变得无效了。 然而,在机器学习中,几乎没有人在测试假设之前就说,“我认为这将会因为某某原因而起作用”。许多的发现都是来自简单的实验。 如果我们能在ML学术界培养一种更传统的科学文化,那么发表无效结果论文数的增加,也未尝不是一件好事。但就目前的状况而言,我认为并不会有多大帮助。

另一位网友表示:

这可能为时过早。无效结果在物理学领域中非常有用,并且具有完善的理论框架。 现在大多数的深度学习是由研究生根据直觉和实证结果结合在一起的。 无效结果可能是一个很好的启发式方法,但如果没有一个坚实的理论框架,这个假设期刊中的信噪比会非常高。 当然,这甚至还没有解决大规模超参数搜索和随机初始化的问题,我认为这才是真正的问题。你的方法失败是因为你的原始概念不健全,还是因为你无法找到超参数和/或随机初始化的正确组合呢?

那么对于在机器学习领域也采用“预注册”制度,你怎么看呢?

参考链接:

https://www.nature.com/articles/d41586-018-07118-1

https://www.reddit.com/r/MachineLearning/comments/9racim/d_nature_first_analysis_of_preregistered_studies/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-10-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

再谈量子计算机:中国队有何突破;基本原理是什么,又长什么样

唐旭 安妮 晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 继续谈谈量子计算。 昨天,中科院召开发布会正式宣布:“世界首台超越早期经典计算机的光量子...

3528
来自专栏新智元

深度学习驱动智能搜索引擎,RankBrain革了SEO的命

【新智元导读】想在谷歌或百度等搜索结果中排名靠前,除了广告(给钱),你还可以选择SEO(搜索引擎优化):让网站符合算法的规则,提升在搜索引擎内的自然排名。但去年...

3839
来自专栏SDNLAB

2018年企业存储的7大趋势

今天的企业比以往任何时候都产生和存储海量的数据,且这样的趋势丝毫没有放缓的迹象。大数据、物联网和分析的崛起促进了数据指数级的增长,这一增长趋势正在推动组织扩大其...

3707
来自专栏AI科技评论

业界 | Build 大会中的AI:微软AI云服务全线更新

AI 科技评论按:在美国西雅图当地时间 5 月 7 号的 Build 开发者大会上,微软发布了一系列关于智能云计算和智能边缘计算的服务及产品。当然,在这个「人工...

1782
来自专栏加米谷大数据

技术分享 | 大数据可视化的五大发展趋势

在这个信息爆炸的时代,借助图形化的手段,高效和清晰的交流信息是数据可视化的目的所在,作为一种信息载体,她拥有对数据的多种表现形式,可以是美丽的且带有趣味性的,以...

3965
来自专栏CDA数据分析师

以电商为例,说说数据分析的5个思维方法

数据分析真的很重要,能从一堆看似杂乱的数据里,找到问题并解决问题。从数据上的变化,来判断甄别效果得失;简直是居家旅行,运营生意的必备良品。 首先,我们要知道,...

22710
来自专栏PPV课数据科学社区

学习攻略 | 数据分析师学习路线图

数据分析师Data analyst:指熟悉相关业务,熟练搭建数据分析框架,掌握和使用相关的分析常用工具和基本的分析方法,进行数据搜集、整理、分析,针对数据分析结...

3014
来自专栏镁客网

黑科技 | 用算法分析图像,实现对神经元行为的精准“录像”研究

1290
来自专栏人工智能

机器学习:预测性维修的数据基础

预测性维修作为工业互联网中的最核心应用,无论是早期的探索者还是新进的工业互联网平台都将它作为主要切入口。当我们谈到应用落地时,可能很多企业会有这样的误解或疑问:...

7189
来自专栏媒矿工厂

MMSys2018:VR360发展现状【附PPT全文】

2018年6月12号至6月15号,第9届ACM多媒体系统会议(MMSys,ACM Multimedia Systems Conference)在荷兰阿姆斯特丹召...

2366

扫码关注云+社区