Google AI:如何破解AI学术研究的赢者诅咒?

AI 科技评论按:当我们为各种测评任务中取得的分数欢欣鼓舞时,可能我们已经受到了「赢者诅咒」。

赢者诅咒:赢得拍卖品的中标者出价高于其他竞标者,但他很可能对拍卖品估价过高,支付了超过其价值的价格,从而赢得的拍卖品的收益会低于正常收益甚至为负。换句话说,就是当你一心想要赢得竞标时,却偏离了你原本的目的。

机器学习领域在过去的十年时间里取得了非常了不起的进步。从机器翻译,到语言理解,到计算机视觉,到自动驾驶,到 AlphaGo,到电子游戏(例如 DOTA)等等。

这一系列的快速进步背后最大的推力可能就是,学术研究领域越来越强调所谓的「win」文化:新发表的方法必须在某个给定的任务或基线上超过之前别的方法。这意味着我们已经把学术社区逐渐变成了一个有着明确判定输赢的场地。

反思一下,科学的目的不是为了胜利,而是为了知识。

因此,当我们不断在各种测评中取得越来越高的分数时,或许是时候该警惕了:我们已经受到「赢者诅咒」。

近期,来自 Google AI 的 D. Sculley, Jasper Snoek, Ali Rahimi, Alex Wiltschko 在 OpenReview.net 上提交的一篇文章《Winner's Curse? on Pace, Progress, and Empirical Rigor》[1] 给我们明确指出了这点,作者认为实证严谨(empirical rigor)对于现在的 AI 学术社区变得越来越重要,他们针对当前的问题给出了一些颇具革命性的建议。

[1]注:这篇文章是提交给ICLR 2018的workshop track的。

最近一年的重点案例研究

如果回顾一下过去一年的论文,就会发现一个明显的趋势(许多研究组从不同的角度做出了相同的发现):由于当前快速发展的研究工作大多只是简单的调整参数或者进行消融研究(ablation studies)[2],我们错过了许多可能的改进或深度的见解。下面是过去一年中几个研究组的一些发现:

[2] 注:消融研究,通常是指去除模型或算法的某些“特征”,并查看这会如何影响性能。例如你提出了某个结构,若想确定这个结构是否有利于最终的效果,就要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比。

  • Lucic et al.(2017) 对 GAN 的近期创新工作进行了大规模实证比较。一个主要发现是,最近的大多数方法经过足够的超参优化后都能够达到相似的分数。
  • Henderson et al.(2017) 表明,他们只需要对基线 LSTM 进行更好的超参调整,就可以超过一系列最新的 seq2seq 学习方法的表现,在比较热门的 Penn Treebank 数据集上获得最优的性能。
  • Vaswani et al. (2017) 极好地进行了使用 attention 的独特编-解码器风格网络(exotic encoder-decoder style networks)的消融研究,它表明只需要加上 attention 模块,你就能获得更好的表现。
  • Rikelme et al. (2018) 对贝叶斯深度神经网络中使用近似推理进行决策的各种近期的方法进行了比较。他们发现,在决策任务中许多最近提出的方法都只是在努力超越基线。
  • Henderson et al. (2017) 评估了深度强化学习的可重复性,他们发现近期的工作在同一个任务的不同的基线上模型会有显著的变异。

以上这几例研究说明了一个问题,即如果这些领域采用更高水平的实证严谨,那么那些看似在快速发展的研究可能要比它看起来的样子慢得多。

诱因和现状

从目前的情况来看,诱使机器学习研究急剧增长的原因可能有以下几点:

  • 公开可用的数据集增多,例如 Kaggle 上现在已经拥有了超过 10000 个公共数据集。
  • 计算的成本降低,并且伴有大量如云计算这样的大型计算资源;
  • 在该领域工作的研究人员数量剧增,这为大规模合作创造了机会;
  • TensorFlow、PyTorch 等开源 ML 平台的兴起,以及由此带来的开源代码和模型的普及。

这些因素是否真的能给 ML 的研究带来真正有用的结果,可能需要历史来告诉我们了。从表面上看,这些因素本来应该促进更加强健的实证工作的,但实际情况却朝着相反的方向走去。

  • 理想情况下,处理真实数据的目的是为了调整和检查算法在各种抽样分布下的行为,以便了解算法的优缺点。但现在实证研究已经变成了一个纯粹为了「win」(而不是为了深入研究和理解)而进行的挑战赛。
  • 计算的价格虽然在不断的降低,但也是相对的。大型的研究组(通常是企业)可能拥有更多的资源,而个人研究者可能就会受到比较大的压力。
  • 随着这个领域的参与者数量逐年增长,顶会的接受率却基本上保持不变;此外培养优秀的审稿人通常需要数年时间,熟练的审稿人数量增长远远落后于投稿人的数量增长。而另一方面发表论文又关系着事业前景,于是就会有越来越多的研究人员害怕被竞争对手抛弃,并希望能够迅速地在某个领域竖立旗帜。这种竞争所带来的恐惧感可能会抑制研究人员去花时间进行细致地实证分析。
  • 当许多研究人员在某一问题或相关问题中并行工作时,即使每个人都在尽力避免,但这个领域也会出现多种假设检验的问题。

改革建议

久病难医,Ali Rahimi 等人在文中表示:「我们提出几条建议,抛砖引玉,希望以后大家以后多多讨论。」

实证评估标准:在目前的做法上,以下标准应当被鼓励、奖励,并最终成为实证工作中的要求:

  • 调优方法:应该通过网格搜索或引导优化方法对包括基线在内的所有模型进行关键超参调优,这应当作为出版物的一部分进行分享。
  • 切片分析:在整个测试集上进行精确度或 AUC 等性能的测量可能会掩盖其他重要结果,例如在一个区域的质量较高,而在另外一个区域的质量则较低。根据数据的不同维度或类别来分解评测指标,这是完整的实证分析的关键部分。
  • 消融研究:研究中应包括对以前基线的所有变化进行全面的消融研究,对每个组分的变化进行单独测试和组合测试。
  • 完整性检查和反事实:对模型行为的解释应有意识地进行完整性检查,例如对测试分布之外的反事实数据或反常数据进行分析。模型对具有不同背景的图像或具有不同人口统计分布的用户的数据的表现有多好?
  • 至少一个负例:由于「没有免费的午餐」理论仍然有效,研究人员去发现和报告新方法相比旧方法表现不好的区域非常重要。只展示成功的论文应当被质疑,甚至可能因此而拒绝接收。

共享实验笔记和记录:ML 研究人员大多不会像物理等领域那样把所有的结果记录下来。但作者建议研究人员将有关论文研究期间进行的所有实验的细节和时间都保存在电子文档中,这有助于追踪研究的发现、探索和结论的全过程;同时它也可以抵消多重假设检验和事后解释的问题。

改变论文格式:在一个以创新而著称的领域,我们的主要档案传播媒介仍然以优化纸张印刷为目的,这实在令人惊讶。让我们改变这种纸张格式吧!像 iPython 和 Colaboratory 1 这样的智能笔记本,不仅可以包含代码、数据,还可以包含文字的分析,我们为什么不采用这些来作为一流的出版媒介。

会议中论文页面往往限制了作者展示更完整的实证分析的能力,或者需要花费很多页面才能完成。如果不再让纸张印刷格式限制我们,那么对于评审员来说就可以查看更丰富的内容。为了避免泛滥使用这种自由格式,要求对每个实证结果的额外页面进行一次额外的审查以及适当的审查标准质量要求。

协作和贡献分配:要实现更加完整的实证评估和分析,一般需要大量的工作,可能更多的是一大组合作者共同完成。在目前的这种通过作者先后顺序来评定每个人做出贡献的大小显然是不够的。因此建议在每篇论文中有一个附录,简要概述每位作者的贡献,作为激励这种协作的解决方案之一。

评审和评审人员标准:评审质量是提高一个领域实证严谨性的关键因素。因此建议通过为评审人员创建更好的工具来帮助他们以及领域主席来执行更高要求的评审标准,例如可以直接在文本中添加注释,创建更完整的评审评论。另外还可以为那些由于资金短缺不能参加会议的优秀的评审员提供免费注册作为奖励。

场地选择:目前会议论文的接收率通常与会议场馆的实际大小有关。因此建议通过其他媒介(包括视频和视频会议)来进行更具创造性的工作,这样就可以更为灵活地为那些不是为了「wins」而是专注于其他问题(例如深度元分析)的论文提供了接收机会。

后记

参加过 NIPS 2017 的人应该都清晰地记得当时人山人海的壮观。Ali Rahimi 当时在 NIPS 演讲中将这称为「large waves」。也许我们真的需要坐下来认真地讨论这些问题了。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏吉浦迅科技

黄仁勋:透过 GPU 加快人工智能运算速度是崭新的运算模型

Yann LeCun 邀请我出席本周在纽约大学举行的首届“人工智能的未来”学术研讨会,人工智能领域的多位重量级人士齐聚一堂,讨论这项技术的现况及未来发展。我在此...

3529
来自专栏AI科技大本营的专栏

开工了!三位大咖给你指路:未来 3~5 年内,哪个方向的机器学习人才最紧缺?

十一长假结束,收心归来,重新投入工作。如何能克服假期综合症呢?如何快速收心?今天营长就携三位大咖来为你打打鸡血,指引指引未来的路。他们将从自身的工作经历和学习经...

35512
来自专栏AI科技大本营的专栏

古代荀子也懂AI?达芬奇的手术机器人有多神奇? 听浙大吴飞扒一扒人工智能的“古今中外”!

整理 | 晶晶 西周的印纸造文、三国的木牛流马、希腊古城的黄金机器女仆……吴飞的演讲,一下子将人工智能的历史拉到了2000年前……原来用机器替代劳动的想法古已有...

3635
来自专栏CreateAMind

【图文实录】北大AI公开课 | 吴甘沙:智能驾驶,有多少AI可以重来

3月14日,北大AI公开课第四讲邀请到了驭势科技联合创始人&CEO、原英特尔中国研究院院长、英特尔首席工程师吴甘沙老师亲临现场,与北大人工智能创新中心主任、百度...

623
来自专栏新智元

武汉大学蔡恒进:论智能的起源、进化与未来

【新智元导读】人工智能(AI)在围棋领域完胜人类是里程碑式的事件,意味着计算机的计算力和网络深度足以模拟人脑。无论AI存在多少潜在隐患,类脑智能已是势在必行。图...

3205
来自专栏机器人网

学人工智能必知:人工智能的发展史

1.2人工智能的发展史 人工智能的研究不仅与对人的思维研究直接相关,而且和许多其它学科领域关系密切。因此说到人工智能的历史,应当上溯到历史上一些伟大的科学家和思...

3046
来自专栏机器之心

现场 | CVPR 2018第一天:精彩的Workshop与被中国团队进击的挑战赛

前伯克利 CS 系主任 Jitendra Malik:研究 SLAM 需要结合几何和语义

491
来自专栏新智元

精品 | 2016三大深度学习峰会:顶级科学家360度剖析技术重点、应用关键及投资机会

【新智元导读】Re-Work上放出了本年度波士顿、伦敦、柏林的三大深度学习峰会的全部演讲视频,156位行业精英带来精彩演讲,其中包括 Yoshua Bengio...

40419
来自专栏数据派THU

机器翻译:生于冷战,却为人类重建巴别塔

来源:环球科学ScientificAmerican 作者:陈宗周 本文长度为5200字,建议阅读5分钟 本文回顾机器翻译发展史,并分析这个曾一度陷入低潮的领域,...

1889
来自专栏人工智能快报

美情报机构投2800万美元研发高级机器学习算法

据美国哈佛大学网站2016年1月26日报道,哈佛大学工程与应用科学学院(SEAS)、脑科学中心(CBS)、分子和细胞生物系共同获得美国高级情报研究计划局(IAR...

33812

扫描关注云+社区