前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >公开处刑:PapersWithCode上线“论文复现报告”,遏制耍流氓行为!

公开处刑:PapersWithCode上线“论文复现报告”,遏制耍流氓行为!

作者头像
AI科技评论
发布2021-07-02 17:00:56
4290
发布2021-07-02 17:00:56
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 苦寒来、青暮

成功复现一篇论文到底有多难?

大概就像这样吧:

可太TM难了——相信这是大多数机器学习研究者都吐槽过的心声。

正义也许会迟到,但绝不会缺席。

这不,就在昨日,PapersWithCode官宣其上线了新功能,在单篇论文的详情页面展示“公开处刑判决书”——论文复现报告。

他们在推特上表示:“这项功能是显示论文成果可复现性的新信号。”并在下方展示了一个案例。

在此案例中,进行复现的研究员如此说道:我们复现的模型准确率与原论文相差不到0.5%,这证明了它在分类任务中的表现是很不错的。当我们将模型应用到语义分割中时,发现结果非常平庸。可以得出结论,与其他贝叶斯方法一样,很难在更复杂的任务上训练该模型。

这篇论文近期已经发表在ReScience C上,ReScience C 是开放获取同行评审期刊,鼓励明确复现已发表的研究。

ReScience C与其他传统科学期刊截然不同。ReScience C 可以说是一个 GitHub 项目,上面提供了关于计算研究的每个新实现以及评审、解释和测试。

对每个提交,他们都会采用公开审查和测试的问题形式,以保证任何研究人员都可以重复使用它。

而这篇论文最初的起源,来自PapersWithCode组织的一个挑战赛——RC 2020。

地址:https://paperswithcode.com/rc2020

近几年,PapersWithCode都在组织顶会论文复现挑战赛,近期他们已经将复现范围扩展到了NeurIPS、ICML、ICLR、ACL、EMNLP、CVPR 和 ECCV等知名AI会议。

所有参赛者提交的复现报告都将经过同行评审,并显示在 PapersWithCode的原始论文旁边。报告会通过 OpenReview 进行同行评审。在每年的挑战赛中,都会有一批优秀的报告发表在 ReScience C上。

在Open Review上,根据这篇论文的评审结果,作者是将模型应用到了分类以外的任务,即语义分割(而这是原始论文中没有做的研究),从而表明该模型不适用于更加复杂的任务。

优秀的复现论文当然不止这篇,Open Review上也列出了所有在RC 2020中被ReScience C接收的论文列表。

地址:https://openreview.net/group?id=ML_Reproducibility_Challenge/2020

你也可以在PapersWithCode上查看RC 2020相关论文。

地址:https://paperswithcode.com/conference/rc-2020

PapersWithCode这家网站在鼓励论文可复现性上一直不遗余力,除了常年组织复现挑战赛,近期他们也和arXiv合作上线了在arXiv页面上传代码链接的功能。

为了不让复现者怀疑人生,他们可真是拼尽了全力。

并非首例

其实在此之前也有研究者自建了一个名为 Papers Without Code 的网站,来张贴复现不了的论文。

起因是这位同时作为Reddit 网友的研究者,在机器学习社区不断地吐槽:“我耗费了一个星期的时间来尝试复现一篇论文,结果每次都是失败。上网搜了一下才发现,原来不止我一个,也有别人无法复现这篇论文。”

他之后又了解到一个粗略的数据:所有论文中可能有 50%-75%是不可复现的。

于是这位网友盛怒之下创建了一个名为「Papers Without Code」的网站,专门方便大家挂出无法复现的机器学习论文研究。这样可以节省研究人员的时间和精力,以免花费不必要的成本去复现一篇根本无法复现的论文结果。

如果某篇论文「光荣上榜」,论文作者会第一时间收到邮件通知,并有机会针对无法复现的问题作出回应,因为这可能是因为在论文中没有交代足够的细节或一些tricks。

网站的建立者希望通过这样来促进机器学习社区之间的有效交流,并培养健康的研究生态。

网站地址:https://www.paperswithoutcode.com/

打开该网站后可以发现目前已经有19篇论文被挂了出来,从左到右的四列分别显示的论文标题、是否被解决、论文链接、提交该论文的原因。

如上图所示,值得注意的是在这19篇论文当中,有8篇论文显示已被解决。

仔细观察后发现原来在作者答复当中,大部分作者更新或上传的代码之后,无法复现的论文就大多得到了解决。

也有作者亲自做出来很详细了回复,感谢大家提出该问题,并详细列出了解决方案以表达歉意。

最后,需要说明的是,硬币总是两面的,论文无法复现不一定都是作者的原因,如果只是一两个人无法复现,而别人却都能复现,这个时候先别着急忙慌地把锅甩到作者身上,造成错怪,年轻人要先从自己身上找找原因,是不是码力不够深厚呢?

另外在某些情况下,即使作者将源代码和数据都公布,其他研究者依然也很难复现出结果。

这可能有很多原因,比如cherry picking:作者从多个实验中挑选出最好的结果,以强行达到 SOTA 水平;或者使用一些tricks,针对数据集来魔法调配模型的参数,以提升实验结果。

除此之外,即使论文结果最终可复现,但因为机器学习模型会针对特定环境和条件过拟合,所以在新的数据集上效果不好也是可以理解的。

最最后,也要防止只会敲一行 import tensorflow as pytorch 的伸手党打着无法复现论文的名义来威胁作者白嫖代码。

“我,白嫖怪,无法(不会、不想、懒得)复现,快交出你的代码!”

参考链接:

https://twitter.com/paperswithcode/status/1400428318898495494

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档