前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >观点 | 反思ICLR 2017:拼运算拼资源时代,学术研究如何生存?

观点 | 反思ICLR 2017:拼运算拼资源时代,学术研究如何生存?

作者头像
机器之心
发布2018-05-08 12:14:28
7200
发布2018-05-08 12:14:28
举报
文章被收录于专栏:机器之心

选自Medium

作者:Libby Kinsey

机器之心编译

参与:侯韵楚、李亚洲

如今许多论文都会极其地依赖大量计算资源,这通常在学术界的经济范畴之外,所以学术研究该何去何从?该文作者 Libby Kinsey 在参加完 ICLR会议之后,总结出了这篇反思。

Libby Kinsey 在上周赴法国南部(旅程十分艰辛)参加了深度学习会议 ICLR(International Conference on Learning Representations)。

会议内容无甚多变,但有一点令我十分惊诧:许多重要的论文都依赖大量计算资源,但这些资源是学术界无法获得的。我很好奇,对计算资源有限的学术研究而言,还能走哪些路?我尝试在下文做出回答。(我也很好奇,当谷歌、亚马逊等公司招聘到所有的学者,这个问题是否就无实际意义了?)

企业附属型科研的最高荣誉

根据质量、明确性、原创性和重要性,提交至该会议的论文会被分为口头报告、会议海报、研讨会海报以及拒稿这几类,而其中三篇口头报告的论文进一步被评为了「最佳论文」。

  • 在提交的 451 篇论文中,有 15 篇被选为口头报告,另外 230 篇作为会议海报或研讨会频道的海报。
  • 在 15 篇口头报告中,只有 3 篇论文有专业学术作者;其中一篇论文被授予「最佳论文」奖。
  • 相较而言,Google Brain 和 Deepmind 的研究人员共同撰写了 6 篇口头报告,其次是 Facebook(3 篇)、Intel(2 篇)、Twitter(2 篇)以及 Uber(1 篇)。

此处我冒险断言,企业中研究人员的论文不太可能比大学的研究人员质量更高。因此,企业的成功必定归因于提出(并回答)一系列更广泛的原创的重要问题的能力。我们已习惯将机器智能的最新突破归功于大型数据集,也更清楚地看到,同样有一些研究依赖「大计算」。以 Google Brain 为例,何种大学负担得起这样的实验?

  • Neural Architecture Search with Reinforcement Learning 论文(口头报告)在实验中使用了 800 个 GPU。
  • Capacity and Trainability in Recurrent Neural Networks 论文(会议海报)使用了「CPU 千年价值计算(CPU-millennia worth of computation)」(亦称为「荒谬之数」)。
  • Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文(会议海报)使用 GPU 集群来训练具有超过 1000 亿个参数的模型。
  • Massive Exploration of Neural Machine Translation Architectures 论文(近期提交至 ACL 2017 的论文,而非提交至 ICLR)报告了超过 25 万 GPU 小时的实验结果。

即使 Google Brain 愿意继续强化结果,有限的经费和时间也会成为阻碍。下列论文由 Google Brain 的研究人员共同撰写,但对成本效益的权衡采取了更加实际的观点:

  • Hyperband: Bandit-Based Configuration Evaluation for Hyperparameter Optimization 论文(会议海报)「由于运行这些实验的成本很高,所以选择的对照组会尽可能提供有效信息(EC2 的信用总成本超过 1 万,并且 CNN 实验会消耗超过 1 万 GPU 小时)」。
  • Revisiting Distributed Synchronous SGD(拒稿):「我们同意审稿人的意见,即研究结果可以通过对多次运行的结果取平均来加强。不幸的是,这种做法十分昂贵——10 次初期实验的运行便会花费大约 15 万 GPU 小时」。

这种资源不平等的现象(当然并不局限于该领域)使未来的研究人员很难在未经企业赞助的情况下做出成果,而对于不愿与商界合作的学者而言情况更甚。

那么所有与人工智能民主化有关的聊天都会被这种对硬件和/或数据的繁琐依赖所掩饰。(这并非在诋毁任何优质的开源包抑或兢兢业业的开发者与贡献者)。

所以……存在其他的途径吗?

关于创新的预算

更复杂的架构、模型集合以及大型超参数搜索正被加入大型计算(但它被贴上了「仅会使用蛮力」或「痴心妄想」的标签)。然而这并不意味着不存在不需依赖其「大」数据和大型 GPU 农场等便可进行研究的原创性重要问题。

灵感一如既往地来自人类大脑,而不需大量数据或重复来习得,它很容易构建概念并建立域间连接(「泛化」与「迁移学习」)。神经编程诱导领域的研究人员认为,此能力的关键部分相当于学习编写程序,例如:

  • 「递归将问题分解成较小的部分,并大幅缩小每个神经网络组分的范围」(Making Making Neural Programming Architectures Generalize via Recursion,口头报告,获最佳论文奖)。
  • 「将知识扩散到可以跨任务分享的子组件的能力」(Lifelong Perceptual Programming By Example)。
  • 「通过编写低级程序来表示高级程序」(Neural Program Lattices)。

ICLR2017 会议中的 Alex Graves(Google Deepmind)。

如今的研究重点是学习「教科书」式算法,如「学校、年级」的添加和事务排序。这与我的目的——从现有的最佳解决方案的数据中学习程序似乎完全相悖。何不仅仅将它们作为先验知识的单位?但我意识到这样可能有所疏漏,即最简单的、完全可泛化的、殚见洽闻的程序也许可以展示能够组合更复杂程序的方法,并趋向 AGI。所幸人们能够轻易为这些简单任务生成训练数据!

有关该主题的更多内容可通过访问 2016 年 NIPS 会议的神经抽象机及程序感应研讨会网站得到。「电脑自主编程这一愿景终将实现」(Alex Graves,Google Deepmind,ICLR2017)

将先验知识纳入模型的其他方法直观上可能产生结果。这些可能是将深度学习与象征性人工智能相联合的混合性方法(如 Marta Garnelo,@mpshanahan 以及 @KaiLashArul 去年的论文 Towards Deep Symbolic Reinforcement Learning),或者进行结构学习来对推理任务有所裨益(Learning Graphical State Transitions)。这些方法真的有可能降低对计算和数据需求吗?

对于如何实现可信赖的机器学习系统,还存在其他紧迫的研究问题。Benjamin Recht 在一次引人入胜的邀请报告中谈到学习理论的中心阶段,认为对深度学习拥有更深刻的理论认识对于提高信任度、可扩展性以及可预测性而言至关重要。

「稳定性和稳健性对于确保安全且可靠的机器学习性能而言举足轻重。」(Benjamin Recht,Berkeley,ICLR2017)

ICLR 今年的最热论文也许会是屡获殊荣的深层神经结构体系的泛化特性(Understanding Deep Learning Requires Rethinking Generalization)。它通过实验对问题做出测评;似乎没有人完全同意对于结果的解释,这意味着我们同样需要经过严谨分析的洞见!

对于算法问责,偏见以及隐私问题而言也是如此。

所以在一些不需大量数据或大量计算的关键研究领域,诸如简单程序的引入、混合模型以及学习中泛化的分析理论,你是否同意这一观点?存在其他的领域吗?请大家畅所欲言。

原文链接:https://medium.com/@libbykinsey/iclr2017-deep-thought-vs-exaflops-9f653354737b

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档