首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

惊人!顶会AI论文提出的400种算法,94%的算法”可复现性“存疑!

导读:在AAAI会议上,挪威科技大学计算机科学家Odd Erik Gundersen报告了一项调查的结果,调查针对过去几年在两个AI顶会上发表的论文中提出的400种算法。他发现只有6%的研究者分享了算法的代码。

去年,加拿大蒙特利尔大学的计算机科学家们希望展示一种新的语音识别算法,他们希望将其与一名著名科学家的算法进行比较。唯一的问题:该benchmark的源代码没有发布。研究人员不得不从已公开发表的描述中重现这一算法。但是他们重现的版本无法与benchmark声称的性能相符。蒙特利尔大学实验室博士生Nan Rosemary Ke说:“我们尝试了2个月,但都无法接近基准的性能。”

人工智能(AI)这个蓬勃发展的领域正面临着实验重现的危机,就像实验重现问题过去十年来一直困扰着心理学、医学以及其他领域一样。AI研究者发现他们很难重现许多关键的结果,这导致了对研究方法和出版协议的新认识。法国国家信息与自动化研究所的计算神经科学家Nicolas Rougier说:“这个领域以外的人可能会认为,因为我们有代码,所以重现性是有保证的。但完全不是这样。”上周,在新奥尔良召开的AAAI会议上,重现性(reproducibility)问题被提上议程,一些团队对这个问题进行了分析,也有团队提出了减轻这个问题的工具。

最根本的问题是研究人员通常不共享他们的源代码。在AAAI会议上,挪威科技大学计算机科学家Odd Erik Gundersen报告了一项调查的结果,调查针对过去几年在两个AI顶会上发表的论文中提出的400种算法。他发现只有6%的研究者分享了算法的代码。只有三分之一的人分享了他们测试算法的数据,而只有一半分享了“伪代码”。(甚至包括Science和Nature在内的期刊上发表的AI论文中也没有代码。)

针对主要会议上发表的400篇AI论文的调查显示,只有6%的论文包含算法的代码,约30%包含测试数据,54%包含伪代码。

研究人员说,这些缺失的细节的原因有很多:代码可能是一项正在进行中的工作,所有权归某一家公司,或被一名渴望在竞争中保持领先地位的研究人员紧紧掌握。代码可能依赖于其他代码,而其他代码本身未发布。或者代码可能只是丢失了,在丢失的磁盘上或被盗的笔记本电脑上——Rougier称之为“我的狗吃了我的程序”问题。

假设你可以获得并运行原始代码,它仍然可能无法达到你的预期。在机器学习领域,计算机从经验中获取专业知识,算法的训练数据可以影响其性能。 Ke推测,不知道那个语音识别基准的训练数据是什么阻碍了她的团队的进展。“每跑一次的结果都充满了随机性,”她补充说,你可能“真的非常幸运,跑出一个非常好的数字。”“研究报告中通常写的就是这个。”

在AAAI会议上,加拿大麦吉尔大学的计算机科学家Peter Henderson表示,通过反复试验学习设计的AI的性能不仅对所使用的确切代码高度敏感,还对产生的随机数“超参数”也非常敏感——这些设置不是算法的核心,但会影响其学习速度。

他在不同的条件下运行了这些“强化学习”算法中的几个,发现了截然不同的结果。例如,运动算法中使用的一个简笔画虚拟“半猎豹”,它可以学习在一次测试中奔跑,但只会在另一次测试中在地板上徘徊。

Peter Henderson说,研究人员应该记录更多这些关键细节。 “我们正试图推动这个领域有更好的实验程序,更好的评估方法。”

Peter Henderson的实验是在OpenAI Gym强化学习算法测试平台上进行的,OpenAI的计算机科学家John Schulman帮助创建了Gym。John Schulman说,Gym有助于标准化实验。 “Gym之前,很多人都在进行强化学习,但每个人都为自己的实验做好了自己的环境,这使得大家很难比较各种论文的结果。”

IBM Research在AAAI会议上提出了另一种工具来帮助复现:一种自动重新创建未发布源代码的系统,它为研究人员节省了数天或数周的时间。这个系统是一种由小型计算单元层组成的机器学习算法,类似于神经元,用于重新创建其他神经网络。系统通过扫描一份AI研究论文,寻找描述神经网络的图表或图示,然后将这些数据解析为图层和连接,并以新代码生成网络。该工具现在已经复现了数百个已经发布的神经网络,IBM计划把它们放置在一个开放的在线存储库中。

荷兰埃因霍芬理工大学(Eindhoven University of Technology in the Netherlands)的计算机科学家Joaquin Vanschoren为创建了另一个存储库:OpenML。它不仅提供算法,还提供数据集和超过800万个实验运行及其所有相关详细信息。 “你运行实验的确切方式充满了无证的假设和决定,很多这些细节从来没有成为论文。”Vanschoren说。

心理学通过创造一种有利于复现的文化来处理它的再现性危机,AI也开始这样做。 2015年,Rougier帮助启动了一个致力于复现的计算机科学杂志ReScience,NIPS已经开始从其网站链接到论文的源代码(如果有的话)。

Nan Rosemary Ke正在邀请研究人员尝试复现提交给即将举行会议的论文,以实现“可复现性挑战”。Nan Rosemary Ke说,近100个复现项目正在进行中,大多数是由学生完成的,他们可能因此获得学分。

人工智能研究人员表示,目前的激励措施仍然不符合可复现性。他们没有足够时间在每种条件下都测试算法,或者在文章中记录他们尝试过的每个超参数。因为他们面临发论文的压力——许多论文每天都在网上发布到arXiv上,而且也没有同行评审。

实际上,许多人也不愿意报告失败的复现。在ReScience,所有公布的复现项目迄今为止都是正面的。Rougier说,他也尝试过发表一些失败的项目,但年轻的研究人员往往不希望批评别人,失败的项目也就无人问津了。这就是为什么Nan Rosemary Ke拒绝透露她想用作基准的语音识别算法背后的研究人员的原因之一。Gundersen说这种文化需要改变。 “这样做不是羞愧”他说, “这只是说实话。”

原文:http://www.sciencemag.org/news/2018/02/missing-data-hinder-replication-artificial-intelligence-studies

推荐《深度学习系列课》

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180217A0ARTB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券