前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习先驱Bengio:AI顶会论文的Deadline是时候取消了

深度学习先驱Bengio:AI顶会论文的Deadline是时候取消了

作者头像
机器之心
发布2020-03-11 18:05:22
5920
发布2020-03-11 18:05:22
举报
文章被收录于专栏:机器之心机器之心

作者:Yoshua Bengio

机器之心编译

对于机器学习界的研究者来说,一年的进度条几乎是靠数着顶会 deadline 来过的。「投稿→rebuttal→接收/被拒→继续(斐波那契式)投稿」是很多研究者的日常。这种疲于赶场的论文发表方式真的能提高 ML 领域的科研水平吗?近日,深度学习先驱 Yoshua Bengio 在个人博客反思,顶会论文的 Dealine 让人疲于应对,对于提升研究质量来说弊大于利,机器学习研究的发表模式是时候来点变革了。

Yoshua Bengio:深度学习先驱,蒙特利尔大学计算机系教授,2019 年图灵奖获得者。

作为 NeurIPS 顾问委员会和 ICLR 委员会的成员,这些年来我一直在参与这些学术会议的组织举办。关于如何提升会议水准和体验,之前我曾参与过程序委员会的讨论,不过,那些讨论结果都属于「渐进性」的改善。

所以我一直在想,我们是否需要重新思考一下机器学习领域的总体发表程序了。

在过去的几十年里,环境发生了很大的变化。这很大程度上要归功于 arXiv 的普及,它加快了信息发掘和传播的周期。现在有很多能够发表机器学习论文的会议平台,比如我的团队常在 NeurIPS、ICML 和 ICLR 上发表论文,此外也会在一些计算机视觉和自然语言处理的会议上发表论文,这意味着平均每两个月左右就要经历一轮追赶 Deadline 的体验。

总体上看,做研究的氛围在过去几十年间也有不小的变化。如今,竞争氛围更强烈,节奏很快,这让每个人都背上了更重的压力。机器学习领域的规模正在呈指数型增长,学生们也出于焦虑的心态,急于将自身的想法保护起来,因为担心稍晚一步就可能被别人抢先,担心某个人会在某处做了同样的工作。如今,一个博士生在毕业前发表的论文数量,比二三十年前的博士生多了一半不止。

谷歌著名计算机科学家 Jeff Dean 去年曾在推特上分享了最近 AI 论文发表数量的趋势。arXiv 上关于机器学习的学术论文每 18 个月增加一倍,大有赶超摩尔定律的趋势。

机器学习领域的研究几乎完全进入了「会议发表」模式,实际上在计算机科学领域,这种模式已经非常常见。会议论文基本上没有像传统期刊论文那样 clean up 的机会,也很少像传统期刊论文那样,能在多次的修订之后提升内容质量。

所以说,表面上看,我们的生产力更高了,但是这种迫于压力的「生产力提高」对论文质量和内容深度造成了破坏。许多可能包含错误、不够严谨或者只是做了简单的增量提升的论文都赶在 Deadline 之前提交了上去。而在过去,这些论文可能都不会提交。

在 Deadline 的催促下,许多论文是「赶制」的,甚至没有充足的时间去检查内容,此外现在也有攀比论文发表数量的氛围,尤其是作为一作或者共同一作的论文,着实令人惊讶。

我认为,有价值的、重要的研究进展是需要一个过程的,需要一些时间去深入思考,需要后退一步去「小心地求证」。压力会对科研的质量造成负面影响,因此,是时候思考「慢科学(Slow Science)」了。

出于这种感受,我一直在思考机器学习领域是否存在其他可能的研究发表模式。或许我们可以尝试类似 VLDB 模式,这种方式已经在某些地方试行了。我也和 NeurIPS 委员会讨论过这种方法,在这里把通信内容分享给大家:

我希望看到更多有关完善机器学习研究发表程序的讨论,评审是这个过程中的关键。 我感觉,除了缺乏审稿的激励,现有制度还鼓励增量的工作,给研究生及广大的研究者造成了很大的压力,他们会在每个 deadline 之前提交尽可能多的论文。有的学生会在 deadline 两个月之前来找我,咨询两个月时间够不够完成一篇内容。

此外,现在很多大会在内容和社区上的重合度都非常高(尤其是 NeurIPS、ICML 和 ICLR),所以研究者们只需将自己被拒的论文转投下一个会议即可,届时会遇上新一波的审稿人(由于噪声的存在,一篇论文在消耗了很多社区资源之后终被接收)。那些优秀的审稿人在每年的固定几周都很忙,所以大会的领域主席很难找到合适的审稿人(这点不同于期刊)。

这让我想起另一个模式,即首先将论文提交给一个快速流转的期刊(可以是 JMLR),然后让各个大会的程序委员会从已经被接收、审阅、打分的论文中选出最喜欢的论文(假设作者愿意在大会上展示他们的论文)。

过去,举办大会对于加速科研周期、更新研究想法非常重要,但现在我们有了效果更好的 arXiv。因此,除了社交之外,会议的主要作用应该是选出重要研究并进行口头展示,为社区出现的最好、最重要的想法提供多元化的建议,使该领域的研究者能够同步共享这些信息。会议展示的这些内容甚至不必是最新的,也可以是一两年前的研究,只是最近才受到关注。

会议的 Deadline 系统会激励研究者提交半生不熟的成果(通常也不会在论文被接收后进行适当修改,而是转而进行下一项投稿)。如果有一个隐式的软截止时间(implicit soft deadline),研究者就会有动力继续改进自己的工作,直到这项工作被打磨得更好,而不是过早把它投出去(因为如果将论文投给 JMLR,我不知道它何时会被接收,也不知道何时会进入大会的候选列表)。此外,期刊审稿过程中给出的多轮反馈最终应该能够提高论文的质量。我们的研究成果以期刊的形式发表出来将使得机器学习领域的研究者与其他领域的研究者(他们更加看重期刊而不是会议)合作起来更加容易

我想,这只是一个讨论的起点,许多机器学习会议和期刊流程的参与者肯定都有关于如何改进上述流程的想法。在这个社区中,提交或评审论文的每个人都知道一些关于哪些方式可行,哪些方式不可行的信息。让我们集思广益,一起来探索如何在提高科学质量的同时为人类谋求更多福祉。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档