解密 NIPS2016 论文评议内幕（附 DeepMind 8 篇论文下载）

新智元

发布于 2018-03-23 11:39:35

8650

发布于 2018-03-23 11:39:35

文章被收录于专栏：新智元

【新智元导读】备受推崇的顶级会议NIPS预计12月举行，但从4月起议论就没有停，尤其是围绕论文。今天，组织方公开了NIPS 2016论文评议过程，本文就从这届会议颇有争议的论文评议故事说起。29年的NIPS，论文接收都有什么特点？对了，今年会议共收到2500篇论文，近 20%都在讲深度学习。本文还介绍了谷歌 DeepMind 本次被接收的 8 篇论文。最后，NIPS 2016 相关信息，请关注新智元后续报道。

机器学习领域顶尖学术会议——神经信息处理系统进展大会（Advances in Neural Information Processing Systems，NIPS），就是放在整个计算机科学界，也是数一数二的顶级学术会议。

研究成果被这样的会议接收自然是一大荣誉。不过，2016年的 NIPS（预定在今年 12 月初召开），却因为相对较早的论文提交截止时间——各种事务汇集的 5 月底——弄得很多研究人员苦不堪言。上个月，NIPS 2016 的论文评议结果陆续公布，又激起一波争论。

Twitter 上相关信息有很多，这里选几个有代表性的，比如分数不低但仍被拒绝的（#NIPS2016 is crazy, 6 reviews, avg: quality 3.5, novelty 3, impact 3.33, clarity 4 ---> rejected），还有“结果出来了，准备好开骂了吗”（#nips2016 reviews are out! ready for the anonymous scolding?）等等。

今天，NIPS 2016 会议组织方发表文章，公布了本届会议论文评议过程，也算是回应了此前的争论。

NIPS2016 共接收 2500 篇论文，近 20% 在谈深度学习

NIPS 2016 组委会表示，论文评审遵循以下两个方针：

确保项目质量
发明新的评审步骤，以适应越来越多的投稿数量

是的，投稿数量多也是个问题。本届会议共收到投稿 2500 篇，作者总人数超过 6000。

从这里就能看出，即使是顶尖计算机科学家，也逃不过定势——组织方统计了论文提交的时间，绝大多数都是逼近死线才上交。

NIPS2016 论文提交截止时间是 5 月20日，从上图可以见，大部分论文都集中到截止日期前两天开始提交。

经过整理，NIPS 2016 接收论文的有效数量为 2406 篇。（这篇文章详细介绍了论文的评审流程。了解细节，请访问这里：http://www.tml.cs.uni-tuebingen.de/team/luxburg/misc/nips2016/index.php）

补充说明：NIPS 从 1987 年到 2005 年，过去 29 年，一共接收了 6483 篇论文。

这样一对比，就可以看出今年的盛况了。

会议组织方从 3242 名评审那里收到了 1.3674 万条评议意见。平均每位评审提供了 4.05 条意见，每篇论文都经过 5.97 次评议——每篇论文大约有 6 个人评议，难怪有些文章会连架都吵起来。

评分标准简单来说有四条：技术含量、创新程度、实用性，表述清晰。

每个都有1 ~ 5 分。不过，实际上取得 3 分，就已经是排名前 30% 的论文了。

NIPS 2016 论文整体表现大致是这个样子的（遭到拒绝的是多数）：

其中，被接收的论文有将近 20 % 都在谈论深度学习：

上面那张图是所有论文按学科分类，下面是被会议接收的论文按学科分类。

篇幅有限，这里就只介绍排名前 30 的分领域。

1. 深度学习或神经网络	2.大型学习和大数据	3.凸优化
4. 聚类	5. 学习理论	6. 图形模型
7. 在线学习	8. 稀疏和功能选择	9. 强化学习算法
10. 核方法	11. 矩阵分解	12. 山贼算法
13. 成分分析	14. 随机方法	15. 高斯过程
16. MCMC	17. 非线性、维数约简和流形学习	18. 时间序列分析
19. 选型和结构学习	20. 多任务/迁移学习	21. 贝叶斯非参数
22. 光谱方法	23. 变分推理‍‍‍‍	24. 组合优化
25. 半监督学习	26. 结构预测	27. 集成学习和提升算法
28. 基于图的学习	29. 主动学习	30. 排名和偏好学习

作为人工智能领域强中手，谷歌 DeepMind 本届会议一共被接收了 8 篇论文。虽然主题各不相同，不过还是能发现，DeepMind 研究员将其擅长的深度强化学习发扬光大，同时在小数据学习、模型设计等方面也有进展。

我们将其选为代表，整体介绍。

题目：学习与深度多智能体增强学习通信（Learning to Communicate with Deep Multi-Agent Reinforcement Learning）
作者：Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson

摘要

本论文由牛津大学、加拿大先进技术研究院CIFAR NCAP项目组以及谷歌 DeepMind 联合完成。作者思考了多智能体在环境中的感知和行动难题，目标是让它们的分享便利性最大化。在这些环境中，智能体必须学习通信协议，以分享完成既定任务所需要的信息。通过使用深度神经网络，我们能在复杂的环境中展示端对端的协议学习，比如，存在通信谜语或者智能部分观察的多智能体计算机视觉难题。我们提出了两种学习方法：增强内部智能体学习（RIAL）和差异内部智能体学习（DIAL）。前者使用深度Q-Learning，后者探索了这样一个事实，那就是，在学习的过程中，智能体能通过（嘈杂）通信环境，对错误衍生物进行反向传播。因而，这一方法使用的是中心化学习而不是去中心化的口令。我们的实验介绍了新的环境，可供研究如何学习通信协议使用，并且提供了一系列的编程创新，对于这样领域的成功有重要作用。

***

题目：通过梯度下降掌握梯度下降学习（Learning to learn by gradient descent by gradient descent）
作者：Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W. Hoffman, David Pfau, Tom Schaul, Nando de Freitas

摘要

本论文作者全部来自DeepMind。在机器学习领域，从手动设计特征到学习特征的转变普遍获得了成功。虽然如此，优化算法依然还是需要手动设计。本论文展示了优化算法的设计如何被塑造为一个学习问题，让算法以一种自动的方式学习利用智能网络中问题的结构。我们的学习算法在LSTM上实施以后，在受训的任务上，表现要超出普通的手动设计特征，在拥有类似结构的任务上表现也很好。我们在一系列任务上进行了尝试，其中包括简单的凸问题，训练神经网络和用art神经对图像进行风格化。

***

题目：为小数据学习（one shot learning）匹配网络（Matching Networks for One Shot Learning）
作者：Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Koray Kavukcuoglu, Daan Wierstra

摘要

在机器学习中，从小量的样本中进行学习依然是一个重大的难题。虽然最近在一些重要的领域，比如视觉和语言有一些进展，但是，标准的监督深度学习范式在从小数据上快速学习概念上并没有提供一个令人满意的解决方案。DeepMind的研究者在这项研究中，借鉴了基于深度神经特征的度量学习（metric learning）和使用外部存储的增强神经网络中的概念。作者提出的框架学习了一个网络，描绘了一个小型的标签支持数据集和一个非标签样本，避免了在采纳新的分类时进行调整的需要。然后，他们在视觉（使用Omniglot，ImageNet）和语言任务上对小数据学习进行了定义。作者的算法在ImageNet上把小数据学习的准确率从87.6%提升到了93.2%，在Omniglot上的准确率从88%提升到了93.8%。通过在Penn Treesbank上完成小数据任务，他们还展示了相同的模型在语音建模上的作用。

***

题目：时间算法中如何降低反向传播内存消耗
作者 : A Gruslys，R MunosI Danhielka，M Lanctot，A Graves

摘要

本文作者全部来自DeepMind，他们提出了一个新的方法，在训练递归神经网络时，可以减少时间算法中反向传播（BPTT）的内存消耗。作者使用了动态编程来平衡即时结果的缓存与再计算之间的关系。这一算法几乎能与几乎所有用户设定的内存预算相匹配，同时也可以找到一个优化的执行策划，来实现计算成本的最小化。考虑到固定的内存预算在实际使用中无法避免的，计算设备在内存容量和计算性能的表现上存在局限。他们为不同的计划提供了渐进的计算最大值。作者提出的算法对于长序列尤为有效。对于长度达到1000的序列，我们的算法能降低95%的内存能耗，同时，与标准的BPTT相比，每个循环的时间只是原来的三分之一。

***

题目：安全有效的 Off-Policy增强学习
作者：Rémi Munos, Tom Stepleton, Anna Harutyunyan,Marc G. Bellemare

摘要

在本研究中，我们重新审视了Off-policy和基于返回的增强学习算法。通过在一个通用的表格中进行呈现，我们设计了一个新的算法Retrace(λ)。它有三个令人期待的属性：1）方差低；2）安全；3）高效。根据我们的已有知识，这是第一个基于返回的 Off-Policy算法，在没有GLIE假设的情况下，把a.s. 与Q 进行了结合。推论部分，我们证明了Watkins的 Q(λ)融合问题，这目前依然是一个开放的难题。此外，我们还描述了(λ)在一个标准的Atari 2600游戏中的优势。

***

题目：基于计算的开发和固有模拟内在动力二者的统一
作者：Marc G. Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, Remi Munos

摘要

我们研究了一个智能体在其所处环境中的不确定性，以及根据观察了解这种不确定性是如何生成的。详细地，我们聚焦于探索非列表数据中的增强学习。从内在动机文本获得启发，我们使用连续性的密度模型来衡量不确定性，并提出了一个新的算法，从一个任意的顺序密度模型获得一个伪计数（pseudo-count）。这一技巧能让我们生成基于计数的开发算法，用于非列表的案例中。我们把这些伪计数转化为内在回报，并在一系列难度较大的游戏中获得显著的改进，其中包括著名的《复仇》。

***

题目：通往概念压缩
作者：Karol Gregor, Frederic Besse, Danilo Jimenez Rezende, Ivo Danihelka, Daan Wierstra

摘要

我们引入了一个简单递归变化的自动编码架构，能显著地提升图像模型。这一系统代表了imageNet 和Omniglot 两个数据库中潜变量模型的最前沿水平。系统可以自然地把整体概念的信息从低水平的细节中区分出来，进而解决了非监督学习中的一个基础性难题。此外，只存储一个图像的全局信息成为可能后，我们也获得了更高质量的“概念压缩”。

***

题目：通过自展DQN的深度探索
作者：Ian Osband, Charles Blundell, Alexander Pritzel,Benjamin Van Roy

摘要

在复杂环境中进行有效地探索对于增强学习来说目前依然是一个巨大的挑战。我们提出了自展DQN——一个简单的算法，能通过使用随机价值函数来探索计算和统计效率。与epsilon贪婪探索这些抖动策略不同， bootstrapped DQN执行的是暂时延伸（或者深度）探索，这在学习速度上可以带来指数级的增长。我们在复杂的随机马尔科夫决策过程（MDPs）和大规模的Arcade 学习环境中展示了这些好处。在所有的Atari游戏中，自展的DQN 显著地提升了学习时间和表现。

NIPS2016 主旨演讲及短期课程

好，既然已经看完谷歌 DeepMind 的这么多篇论文，乘此机会提前看看 NIPS 2016 的活动日程。（如果你感兴趣，会议现在正在注册报名中。）

主旨演讲

今年的NIPS，主旨演讲都邀请了哪些人？

看官网，可以发现这样的名单：Susan Holmes (Stanford), Kyle Cranmer (NYU), Saket Navlakha (Salk Institute), Drew Purves (Deep Mind), Marc Raibert (Boston Dynamics), Irina Rish (IBM)

7 位讲者中，Facebook 的 Yann LeCun 不用介绍了。那么，剩下的 6 位呢？