谁会是机器学习的莱布尼茨?

作者 | Bot

来源 | 论智

前几日,DeepMind在arxiv上新挖了两个萝卜坑:Mix&Match - Agent Curricula for Reinforcement Learning和Relational recurrent neural networks。前者研究的是如何为强化学习智能体快速构建训练框架,后者则探讨了基于长期记忆的RNN利用记忆信息进行复杂关系推断的可能性。两篇论文的作者数有点令人瞠目结舌,一篇8人,一篇10人。文章发表后,不同于以往的欢呼点赞转发,这次一大帮研究人员崩溃了:我,我我我……我的idea!!!

我刚想出一个新点子,谷歌和DeepMind就发了一篇带27个作者的论文

▌我的论文被scoop了

研究“撞车”是许多科研人员都会遇到的问题,从学生的毕业课题,到高校内部的国家课题基金竞争,再到全球范围内的顶尖课题攻坚,“前无古人,后无来者”的科研成果是百年难遇的,但即便只是“前无古人”的成果,这对许多人来说也渐渐变得难上加难——如果别人选了和你一样的课题,即便他的论文只早发表了一月、一周甚至几天,你多年来的心血都可能付诸东流。

刚进入大学时,教授微积分的老师都喜欢讲这么一个故事:在遥远的欧洲,有两个人在不知情的情况下先后创立微积分。其中先创立的那个人觉得这个方法还不够成熟,于是把它锁在自己家里继续研究;而后创立的那个人觉得有必要和大家分享这个想法,早早写好论文,抢先发表了成果。前面那个,是牛顿;后面那个,是莱布尼茨。

1711年,牛顿和英国皇家学会在一番虚情假意之后正式向莱布尼茨开火。这是一场旷日持久的恶战,因为双方都意识到了微积分在数学发展史上的重要地位。最后牛顿靠着名声、地位和众多拥趸成功抹杀了莱布尼茨对微积分的贡献,而后者也因此郁郁而终。

但其实牛顿的研究是结合运动学的,而莱布尼茨则是几何学,尤其是他还发明了沿用至今的微积分符号体系。英国人赢了一时,最终把自己固步自封在牛顿体系里;而莱布尼茨则培养了像伯努利这样的接班人,后来欧洲大陆上相继出现了欧拉、拉格朗日和拉普拉斯……

这是个载入史册的“撞车”事故,但反过来看,既然牛顿和莱布尼茨都可以撞idea,普通科研人员又怎么能从中得以幸免呢?尤其是刚开始研究生涯的年轻研究员,他们可能是高校硕士生、博士生,辛辛苦苦研究几年,终于要出成果了,最后发现这个课题刚刚被别人发表,更有甚者,别人兴许还已经把它研究透了。

▌围绕课题的勾心斗角

以上还只是善意的“撞车”,双方往往是互不知情的,研究人员之间也许还能因此积累一段缘分,为今后的交流合作打下基础。但中青年科技人员面对的现实远没有那么童话,他们的对手不只是国内外的科研精英,不只是自己,还有身边不断想剽窃他们想法和成果的人。

1998年,英国细胞生物学家Robert Insall离开自己的实验室,跑到同是细胞生物学家的妻子Laura Machesky的研究室里开辟了个小实验室。为了证实进入细胞的生物化学信号与指导细胞运动和分裂的蛋白质之间的关系,这对夫妇日夜颠倒地工作了三个多月,目的是防止其他实验室的竞争者发现并“偷”走他们的成果。

最后,他们的努力得到了回报。在当年举行的美国细胞生物学学会(ASCB)年会上,他们成了第一个发表这项成果的人,许多人在听完演讲后还围着论文海报细看,一边掏出手机把论文方法原原本本读给那头的研究人员听。即便如此,几个月后,另外四篇有着类似结果的论文还是相继出现了。

同样的事也发生在我们身边。知乎上的一位网友@豆豆豆豆豆豆豆叶 就曾在【论文被scoop是怎样一种体验?】中讲述了自己的经历:

我刚开始接触深度学习的时候,阅读了大量Yoshua Bengio组的文章,当时有一阵子对auto-encoder非常着迷,觉得这个东西很神奇,可以用来研究一类特定的问题。

经过苦思冥想,他发现把kernel MMD作为loss训练AE后,AE可以提取二阶信息,于是写论文信心满满地投了NIPS。但这篇论文被拒了,一个reviewer还写了1500字的评论逐条挑错。之后几个月,作者一直在参考意见修改论文,两篇想法相似的论文却在这时出现在了arxiv上,并中了UAI和ICML。

使用MMD和BN的神经风格迁移

这两篇“后起之秀”来自同一所高校同一个系的不同学生,使用的还是同一个数据集。虽然剽窃了idea,但他们无一意识到,作者的原本目标是neural style transfer。而IJCAI 2017的一篇论文确实也证实MMD适合用于neural style transfer,但原作者已经没有意愿再去争抢了……

▌科研领域是否已被垄断

当一篇论文已经在Nature、Science上发表后,编辑是不会允许另一篇相似文章再出现在本期刊上的。从某种角度看,这些期刊对待“独家新闻”的态度几乎和普通媒体一模一样。因此许多研究人员认为,像Nature、Science和Cell这些国际顶级期刊其实可以放宽对研究的独家性要求,来缓解行业内的过度竞争。

千人签名抵制Nature子刊《机器智能》

虽然机器学习领域没有经这些期刊沾染,还保持着开源、免费、共享,但这次Google和DeepMind的动作还是让普通人心生出一股担忧:科研领域需要巨头,但我们是否需要这样无限吞噬成果的巨兽?

一方面,作为一个行业新人,自己的idea能和先进实验里各种大牛“撞车”,这不得不说是一种鼓励和幸运。但另一方面,如果这些实验室一直这样高效率、大规模地进行“掠夺性”研究,那普通研究人员该如何积累科研经历?

现实一些,对于那些经费有限、经验有限的普通博士生,他们该怎么在大实验室高压下找出有价值的、力所能及的研究课题,进而用论文换取自己的博士学位。如果一个怀揣科研梦的人一天到晚只能重复别人的研究,他还会有多大的兴趣和信心?

盲目追随牛顿的英国人已经用血淋淋的现实证明了,我们也需要“弱小的声音”。如果“巨人”声音过大,当他们深入各大会议评审阵容时,正如知乎网友的例子,我们又该怎么判断他们的学术诚信?牛顿的小肚鸡肠只在于个人名誉,但机器学习背后可是巨额的经济、社会利益。

有巨头就会加剧竞争。参照竞争更激烈的生物学领域的情况,虽然Robert Insall和Laura Machesky的做法有些极端,但科学发现只有第一,没有第二。全世界最好的课题只有那么几个,研究它们的人却是前赴后继、数不胜数。为了先于他人出成果,科研人员往往要分秒必争。

“急躁”的环境固然会提高产出效率,但它并不能保证研究质量。比如1993年的论文A Mathematical Model for the Determination of Total Area Under Glucose Tolerance and Other Metabolic Curves,这位医学研究人员惊喜地发现自己居然也能在数学上有所“造诣”——他认为自己发明了数值积分。这大概也是学界呼吁跨学科人才的原因。

▌结语

面对“撞车”,我们是无法从根源上避免它的。我们记得2016年,初出茅庐的Ian Goodfellow在NIPS上热情洋溢地介绍GAN,我们也记得那场演讲上,ML先驱Jürgen Schmidhuber对GAN来源的质疑和批评。

因此大家能做的无非是锤炼自己的意志,反复刺激科研激情。科研犹如马拉松,如果一个人没有前进的毅力和夺冠的梦想,那他可能连“撞车”的机会都不会有。但研究人员不该被卷入过度竞争的循环,真正草率的工作最终会让你失去伙伴、尊重和声誉——这些也是你正在争取的东西。

如果确实是优秀的研究论文,我们也不用纠结是晚了几天还是一礼拜,你终究会遇到一个赏识你的伯乐;如果确实“车毁人亡”,相信你也能迎难而上,找出另一个有价值的课题。

当年微积分老师讲的东西,大多已经还回去了;忘不了的,是他在聊起莱布尼茨时,眼睛里倏忽闪过的光芒。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180611B0MYD300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券