观点 | 反思ICLR 2017:拼运算拼资源时代,学术研究如何生存?

选自Medium

作者:Libby Kinsey

机器之心编译

参与:侯韵楚、李亚洲

如今许多论文都会极其地依赖大量计算资源,这通常在学术界的经济范畴之外,所以学术研究该何去何从?该文作者 Libby Kinsey 在参加完 ICLR会议之后,总结出了这篇反思。

Libby Kinsey 在上周赴法国南部(旅程十分艰辛)参加了深度学习会议 ICLR(International Conference on Learning Representations)。

会议内容无甚多变,但有一点令我十分惊诧:许多重要的论文都依赖大量计算资源,但这些资源是学术界无法获得的。我很好奇,对计算资源有限的学术研究而言,还能走哪些路?我尝试在下文做出回答。(我也很好奇,当谷歌、亚马逊等公司招聘到所有的学者,这个问题是否就无实际意义了?)

企业附属型科研的最高荣誉

根据质量、明确性、原创性和重要性,提交至该会议的论文会被分为口头报告、会议海报、研讨会海报以及拒稿这几类,而其中三篇口头报告的论文进一步被评为了「最佳论文」。

  • 在提交的 451 篇论文中,有 15 篇被选为口头报告,另外 230 篇作为会议海报或研讨会频道的海报。
  • 在 15 篇口头报告中,只有 3 篇论文有专业学术作者;其中一篇论文被授予「最佳论文」奖。
  • 相较而言,Google Brain 和 Deepmind 的研究人员共同撰写了 6 篇口头报告,其次是 Facebook(3 篇)、Intel(2 篇)、Twitter(2 篇)以及 Uber(1 篇)。

此处我冒险断言,企业中研究人员的论文不太可能比大学的研究人员质量更高。因此,企业的成功必定归因于提出(并回答)一系列更广泛的原创的重要问题的能力。我们已习惯将机器智能的最新突破归功于大型数据集,也更清楚地看到,同样有一些研究依赖「大计算」。以 Google Brain 为例,何种大学负担得起这样的实验?

  • Neural Architecture Search with Reinforcement Learning 论文(口头报告)在实验中使用了 800 个 GPU。
  • Capacity and Trainability in Recurrent Neural Networks 论文(会议海报)使用了「CPU 千年价值计算(CPU-millennia worth of computation)」(亦称为「荒谬之数」)。
  • Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文(会议海报)使用 GPU 集群来训练具有超过 1000 亿个参数的模型。
  • Massive Exploration of Neural Machine Translation Architectures 论文(近期提交至 ACL 2017 的论文,而非提交至 ICLR)报告了超过 25 万 GPU 小时的实验结果。

即使 Google Brain 愿意继续强化结果,有限的经费和时间也会成为阻碍。下列论文由 Google Brain 的研究人员共同撰写,但对成本效益的权衡采取了更加实际的观点:

  • Hyperband: Bandit-Based Configuration Evaluation for Hyperparameter Optimization 论文(会议海报)「由于运行这些实验的成本很高,所以选择的对照组会尽可能提供有效信息(EC2 的信用总成本超过 1 万,并且 CNN 实验会消耗超过 1 万 GPU 小时)」。
  • Revisiting Distributed Synchronous SGD(拒稿):「我们同意审稿人的意见,即研究结果可以通过对多次运行的结果取平均来加强。不幸的是,这种做法十分昂贵——10 次初期实验的运行便会花费大约 15 万 GPU 小时」。

这种资源不平等的现象(当然并不局限于该领域)使未来的研究人员很难在未经企业赞助的情况下做出成果,而对于不愿与商界合作的学者而言情况更甚。

那么所有与人工智能民主化有关的聊天都会被这种对硬件和/或数据的繁琐依赖所掩饰。(这并非在诋毁任何优质的开源包抑或兢兢业业的开发者与贡献者)。

所以……存在其他的途径吗?

关于创新的预算

更复杂的架构、模型集合以及大型超参数搜索正被加入大型计算(但它被贴上了「仅会使用蛮力」或「痴心妄想」的标签)。然而这并不意味着不存在不需依赖其「大」数据和大型 GPU 农场等便可进行研究的原创性重要问题。

灵感一如既往地来自人类大脑,而不需大量数据或重复来习得,它很容易构建概念并建立域间连接(「泛化」与「迁移学习」)。神经编程诱导领域的研究人员认为,此能力的关键部分相当于学习编写程序,例如:

  • 「递归将问题分解成较小的部分,并大幅缩小每个神经网络组分的范围」(Making Making Neural Programming Architectures Generalize via Recursion,口头报告,获最佳论文奖)。
  • 「将知识扩散到可以跨任务分享的子组件的能力」(Lifelong Perceptual Programming By Example)。
  • 「通过编写低级程序来表示高级程序」(Neural Program Lattices)。

ICLR2017 会议中的 Alex Graves(Google Deepmind)。

如今的研究重点是学习「教科书」式算法,如「学校、年级」的添加和事务排序。这与我的目的——从现有的最佳解决方案的数据中学习程序似乎完全相悖。何不仅仅将它们作为先验知识的单位?但我意识到这样可能有所疏漏,即最简单的、完全可泛化的、殚见洽闻的程序也许可以展示能够组合更复杂程序的方法,并趋向 AGI。所幸人们能够轻易为这些简单任务生成训练数据!

有关该主题的更多内容可通过访问 2016 年 NIPS 会议的神经抽象机及程序感应研讨会网站得到。「电脑自主编程这一愿景终将实现」(Alex Graves,Google Deepmind,ICLR2017)

将先验知识纳入模型的其他方法直观上可能产生结果。这些可能是将深度学习与象征性人工智能相联合的混合性方法(如 Marta Garnelo,@mpshanahan 以及 @KaiLashArul 去年的论文 Towards Deep Symbolic Reinforcement Learning),或者进行结构学习来对推理任务有所裨益(Learning Graphical State Transitions)。这些方法真的有可能降低对计算和数据需求吗?

对于如何实现可信赖的机器学习系统,还存在其他紧迫的研究问题。Benjamin Recht 在一次引人入胜的邀请报告中谈到学习理论的中心阶段,认为对深度学习拥有更深刻的理论认识对于提高信任度、可扩展性以及可预测性而言至关重要。

「稳定性和稳健性对于确保安全且可靠的机器学习性能而言举足轻重。」(Benjamin Recht,Berkeley,ICLR2017)

ICLR 今年的最热论文也许会是屡获殊荣的深层神经结构体系的泛化特性(Understanding Deep Learning Requires Rethinking Generalization)。它通过实验对问题做出测评;似乎没有人完全同意对于结果的解释,这意味着我们同样需要经过严谨分析的洞见!

对于算法问责,偏见以及隐私问题而言也是如此。

所以在一些不需大量数据或大量计算的关键研究领域,诸如简单程序的引入、混合模型以及学习中泛化的分析理论,你是否同意这一观点?存在其他的领域吗?请大家畅所欲言。

原文链接:https://medium.com/@libbykinsey/iclr2017-deep-thought-vs-exaflops-9f653354737b

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

谷歌大脑工程师给2018学术顶会划重点:对抗性学习+强化学习

16130
来自专栏机器之心

专栏 | 李航教授展望自然语言对话领域:现状与未来

语音助手、智能客服、智能音箱、聊天机器人,近年各种自然语言对话系统如雨后春笋般地涌现,有让人眼花缭乱的感觉。一方面对话系统越来越实用化,另一方面当前技术的局限性...

18500
来自专栏大数据文摘

Yoshua Bengio清华最新演讲:深度学习AI迈向人类水平还面临这些挑战(内含PPT及讲座录音)

被称为“人工智能三巨头”之一的蒙特利尔大学计算机科学与运算研究系教授Yoshua Bengio为清华的师生带来了一场长达一个半小时的充实演讲。

11720
来自专栏新智元

【Goldberg回应LeCun】DL社群缺乏学习,夸大研究成果

【新智元导读】Yann LeCun 对于 Yoav Goldberg 的驳斥得到了 Goldberg 第一时间的回应。他表示自己并不反对在语言任务上使用深度学习...

368120
来自专栏企鹅号快讯

人工智能大数据背后的神秘公式:贝叶斯公式

转自:工业智能化 大数据、人工智能、海难搜救、生物医学、邮件过滤,这些看起来彼此不相关的领域之间有什么联系?答案是,它们都会用到同一个数学公式——贝叶斯公式。它...

69650
来自专栏华章科技

程序员为什么要学深度学习?

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发,让大家观察一下深度学习对程序员意味着什么,以及我们如何利用这样一个高速发展的学科,来帮助程序...

11210
来自专栏量子位

卸载美图秀秀吧,谷歌和MIT用机器学习帮你在拍照前修图

安妮 编译自 The Verge 量子位出品 | 公众号 QbitAI 你去票圈发照片的时候肯定也先修修图。少则几秒加个滤镜,多则数十分钟精修一下美美颜。 以后...

35760
来自专栏PPV课数据科学社区

技术前沿 : 大数据下的用户与价值分析。

大数据下,用户分析的核心是什么? ——解决实际问题   确定用户分析目的,具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理? 确定目的...

33430
来自专栏量子位

CMU科学家们带一群机器人开房,并收集了28,000种不同的姿势

来自卡耐基梅隆大学 (CMU) 的四个科学家,在一篇论文里说,他们带着一群机器人去住Airbnb了。

9000
来自专栏新智元

【春节学AI炒股】深度学习引入信号处理技术,轻松分析股票等各种序列数据

新智元推荐 作者:齐国君 编辑:克雷格 【新智元导读】把深度学习的最新方法用来做股价预测可不可行?一个探讨路径之一是如何深入把经典的信号处理技术引入到深...

486130

扫码关注云+社区

领取腾讯云代金券