ICLR 2018 DeepMind论文精华一览

译者|无明

编辑|Debra

AI 前线导读:4 月 30 号至 5 月 3 号,数百名研究人员将齐聚加拿大温哥华,参加第六届国际学习表征大会。以下是 DeepMind 已经通过审查的论文合集以及演讲内容。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

最大化后验策略优化

作者:Abbas Abdolmaleki,Jost Tobias Springenberg,Nicolas Heess,Yuval Tassa,Remi Munos

我们引入了一种新的强化学习算法,称为最大化后验策略优化(MPO)。我们将介绍几种现有方法,它们直接与我们的推导相关。我们开发了两种离策略(off-policy)算法,并证明它们可与深度强化学习中的最新技术展开竞争。我们的方法在样本效率、早熟收敛以及对超参数设置的鲁棒性方面优于现有方法。

用于高效架构搜索的分层表示

作者:Hanxiao Liu(CMU),Karen Simonyan,Oriol Vinyals,Chrisantha Fernando,Koray Kavukcuoglu

我们探索高效的神经架构搜索方法,并介绍一个简单但功能强大的演化算法,可用于发现具有卓越性能的新架构。我们的方法结合了一种模仿人类专家普遍采用的模块化设计模式的新型分层遗传表示模式,以及支持复杂拓扑的搜索空间。在发现新架构方面,我们的算法已经超越了大量人为设计的图像分类模型,在 CIFAR-10 上达到 3.6%的 top-1 误差,而在 ImageNet 上可达 20.3%,可与现有的最佳神经架构搜索方法相媲美。我们还使用随机搜索的方式呈现结果,在 CIFAR-10 上的 top-1 精度低于 0.3%,在 ImageNet 上低于 0.1%,同时将搜索时间从 36 小时减少到 1 小时。

用于转移机器人技能的嵌入空间

作者:Karol Hausman,Jost Tobias Springenberg,Ziyu Wang,Nicolas Heess,Martin Riedmiller

我们提出了一种通过技能嵌入空间进行参数化的强化学习方法。我们通过利用隐藏变量及探索强化学习和变分推理之间的联系来学习这些技能。

我们的主要贡献是用于分层策略的熵正则化策略梯度公式,以及基于随机值梯度的离策略梯度算法。我们将证明我们的方法可有效地应用在几种模拟机器人操作任务上。

学习意识模型

作者:Brandon Amos,Laurent Dinh,Serkan Cabi,ThomasRothörl,SergioGómezColmenarejo,Alistair M Muldal,Tom Erez,Yuval Tassa,Nando de Freitas,Misha Denil

我们将告诉大家,预测本体感受信息的训练模型可用于表示外部世界中的物体。这些模型能够成功地预测未来 100 步以上的传感器读数,并且即使在断开连接后仍可以继续呈现外部物体的形状。我们将展示通过最大化未来传感器读数的不确定性来进行主动数据采集,模型在此时表现出卓越的性能。我们还从真实的机器手收集数据,并演示相同的模型可用于回答有关现实世界中物体属性的问题。

回归神经网络的 Kronecker 分解曲率逼近

作者:James Martens,Jimmy Ba(Vector Institute),Matthew Johnson(谷歌)

Kronecker 因子近似曲率 (Martens&Grosse,2015)(K-FAC) 是一种二阶优化方法,已被证明可在大规模神经网络优化任务中提供最先进的性能(Ba et al.,2017)。它基于 Fisher 信息矩阵(FIM)的近似值,该矩阵对网络的特定结构和参数化方式进行了假设。最初的 K-FAC 方法仅适用于完全连接的网络,不过 Grosse&Martens(2016)最近对它进行了扩展,可用于处理卷积网络。我们通过引入 RNN 的 FIM 逼近似来扩展处理 RNN 的方法。该逼近通过使用链式结构线性高斯图形模型对不同时间步长的梯度贡献之间的协方差结构进行建模,对各种交叉协方差进行求和并计算倒数。我们在实验中证明,在几个具有挑战性的 RNN 训练任务上,我们的方法明显优于通用的最新优化器,如 SGD 和 Adam。

分布式分布确定性策略梯度

作者:Gabriel Barth-maron,Matthew Hoffman,David Budden,Will Dabney,Daniel Horgan,Dhruva Tirumala Bukkapatnam,Alistair M Muldal,Nicolas Heess,Timothy Lillicrap

我们采用了非常成功的强化学习分布视角,并将其应用在持续控制中。为了开发出我们所说的分布式分布深度确定性策略梯度算法(D4PG),我们还结合使用了一个用于离策略学习的分布式框架。我们还将这项技术与其他一些简单的改进结合在一起,例如使用 N 步回退和优先体验重放。在实验中,我们检查每个组件的贡献,并展示它们如何相互作用,以及它们的组合贡献。我们的研究结果表明,D4PG 算法在各种简单的控制任务、困难的操作任务以及一组基于障碍物的运动任务中表现出了最先进的性能。

Kanerva 机:生成的分布式记忆

作者:Yan Wu,Greg Wayne,Alex Graves,Timothy Lillicrap

我们提供了一个端到端的记忆系统,能够快速适应新数据并生成与它们相类似的样本。记忆是可追踪的,可通过贝叶斯更新规则实现最佳的在线压缩。我们将其表示为一种分层的条件生成模型,其中记忆提供了丰富的依赖数据的优先分布。因此,自上而下的记忆和自下而上的感知被结合起来,生成可表示观察感知的代码。

基于记忆的参数适应

作者:Pablo Sprechmann,Siddhant Jayakumar,Jack Rae,Alexander Pritzel,Adria P Badia·Benigno Uria,Oriol Vinyals,Demis Hassabis,Razvan Pascanu,Charles Blundell

人类和动物能够通过几个例子快速整合新知识,并在整个生命周期中持续不断重复这项能力。相比之下,基于神经网络的模型依赖静止的数据分布和逐步训练过程来获得良好的泛化。我们从互补学习系统理论中汲取灵感,提出了基于记忆的参数自适应(Memory-based Parameter Adaptation,MbPA),这是一种用情景记忆增强神经网络的方法,可以快速获取新知识,同时保持高性能和良好的泛化。 MbPA 将样本存储在记忆中,然后使用基于上下文的查找来直接修改神经网络的权重。它弥补了神经网络的一些短板,如灾难性遗忘、快速而稳定地获取新知识,以及在评估过程中快速学习。

SCAN:学习层次化视觉概念

作者:Irina Higgins,Nicolas Sonnerat,Loic Matthey,Arka Pal,Christopher P Burgess,MatkoBošnjak,Murray Shanahan,Matthew Botvinick,Alexander Lerchner

我们提出了一种新颖的理论方法来解决抽象的组合性问题——如何学习少量的基础构建块,并用它们来动态创建大量新的抽象概念?我们提出了一种名为符号 - 概念关联网络(SCAN)的新型神经网络架构,它可以学习基础的视觉概念层次结构,可通过语言指令来指导它想象出新的概念。

新式语言交流的出现

作者:Angeliki Lazaridou,Karl M Hermann,Karl Tuyls,Stephen Clark

人们通过使用即时沟通任务来研究算法在演进或学习(组合)沟通协议方面的能力。我们通过使用当代深度学习方法和在指称沟通游戏上训练强化学习神经网络代理来扩大这项研究。我们通过开发具备从原始像素数据中进行学习的代理来扩展以前的工作,我们在符号环境中训练代理,这是一种更具挑战性和实际意义的输入表示。我们发现,输入数据中的结构化程度会影响到协议的属性,从而证实这样的一个假设,即当代理认为世界是结构化的时候,最有可能出现结构化的组合语言。

均衡之路:GAN 不需要在每一步都减少发散

作者:William Fedus(蒙特利尔大学),Mihaela Rosca,Balaji Lakshminarayanan,Andrew Andrew(谷歌),Shakir Mohamed,Ian Goodfellow(Google Brain)

在计算机视觉领域取得的成功推动了生成敌对网络研究的发展。为了解决生成对抗网络中的训练不稳定性问题,人们已经提出了多种用于训练动态的理论,并提出了新的训练方法。通过关注生成对抗网络和规范化(如梯度惩罚)的最小化发散视图,我们可凭经验证明,这些方法不能只通过相应的基础理论来解释。这激发了对新理论框架的需求,这类框架可包含和解释所呈现的结果。

神经网络能够理解逻辑蕴涵吗?

作者:Richard Evans,David Saxton,David Amos,Pushmeet Kohli,Edward Grefenstette

我们引入了一个新的逻辑蕴涵数据集,目的是度量模型捕获和利用逻辑表达式结构来处理蕴含预测任务的能力。我们通过这个任务来比较一系列在序列处理中无处不在的架构,另外还有一个新的模型类——PossibleWorldNets——它将蕴含计算成“基于可能世界的卷积”。结果表明,相对于 LSTM RNN,卷积网络在这类问题上存在错误归纳偏差,由于树形结构神经网络利用逻辑语法的能力得到增强,所以其性能优于 LSTM RNN,而 PossibleWorldNets 优于所有测试基准。

分布式优先体验重放

作者:Daniel Horgan,John Quan,David Budden,Gabriel Barth-maron,Matteo Hessel,Hado van Hasselt,David Silver

我们提出了一种分布式架构,用于大规模深度强化学习,使代理能够从比以前多一个数量级的数据中学习。该算法对学习进行了解耦:actor 基于共享神经网络选择动作,与自己的环境实例进行沟通,并将所得到的体验累积放在共享的体验重放记忆中,然后 learner 重放经验样本并更新神经网络。该架构依赖于优先体验重放,只关注 actor 产生的重要数据。我们的架构在 Arcade Learning Environment 上大有改进,在部分 wall-clock 训练时间方面表现出更好的性能。

Reactor:一种快速的强化学习代理

作者:Audrunas Gruslys,Will Dabney,Mohammad Gheshlaghi Azar,Bilal Piot,Marc G Bellemare,Remi Munos

我们提出了多种算法和架构改进,生成的代理比 Prioritized Dueling DQN 和 Categorical DQN 具有更高的采样效率,同时提供比 A3C 更好的运行时性能。分布式回溯策略评估算法为分布式强化学习带来了多步的离策略更新。我们的方法可以用来将几类多步策略评估算法转换为分布式算法。 β-leave-one-out 策略梯度算法使用操作值作为基准。新的优先重放算法利用时间局部性来实现更高效的重播放先级。

单一方向泛化的重要性

作者:Ari Morcos,David GT Barrett,Neil C Rabinowitz,Matthew Botvinick

我们主要研究单一方向泛化的重要性,我们所采用的是受到几十年实验神经科学启发的方法——探索损伤影响——用以确定:深度神经网络中的神经元组到底有多重要?更容易解释的神经元对网络的计算更重要吗?我们通过删除单个神经元以及神经元组来测试损伤对网络的性能影响。实验给我们带来两个惊人的发现:首先,尽管以前的很多研究专注于理解易于解释的单个神经元(例如“猫神经元”或深度网络隐藏层中的神经元),我们发现这些可解释的神经元并不比混淆难解释的神经元更重要。其次,能够正确分类看不见的图像的网络比仅能分类以前见过的图像的网络对删除神经元更具适应性。换句话说,泛化网络比记忆网络更不依赖单一方向。

循环神经网络语言模型中的记忆架构

作者:Dani Yogatama,Yishu Miao,GáborMelis,Wang Ling,Adhiguna Kuncoro,Chris Dyer,Phil Blunsom

生成流利的语法语言需要记录过去生成的单词。我们在论文中比较了三种记忆架构(顺序、随机访问和基于栈),并发现基于栈结构的记忆在持久性复杂度方面表现出最佳性能。为了给基于栈的记忆提供更多的功能,并且更好地匹配语言中出现的各种现象,我们对现有基于栈的差分记忆进行了泛化,让它们能够在每个时间步执行多个弹出操作,从而进一步提高性能。最后,我们展示了我们的栈增强语言模型能够预测传统 LSTM 语言模型难以实现的长期协定模式。

少量自回归密度估算:学习分布的学习

作者:Scott Reed,Yutian Chen,Thomas Paine,Aaron van den Oord,S. M. Ali Eslami,Danilo J Rezende,Oriol Vinyals,Nando de Freitas

目前的图像密度模型训练需要大量的数据和时间。我们在论文中展示了如何将神经注意力和元学习技术与自回归模型结合在一起,用以实现有效的几率密度估算。我们改进的 PixelCNN 可以在 Omniglot 上实现最先进的少量密度估算。我们将所学习的关注策略可视化,并发现它为简单任务学习了直观的算法,例如在没有监督的情况下在 Omniglot 上进行图像镜像和数字绘图。最后,我们在斯坦福的在线产品数据集上演示少量图像生成。

神经语言模型最先进的评估方法

作者:GáborMelis,Chris Dyer,Phil Blunsom

递归神经网络架构的持续创新为语言建模基准测试提供了稳定且显著的最新成果。然而,它们是使用不同的代码库和有限的计算资源进行评估,而这些资源代表了不受控制的实验变化源。我们重新评估了一些流行的架构和泛化方法,它们都带有大规模的自动黑盒超参数调整,并得出了一些令人惊讶的结论,即标准 LSTM 架构在经过适当的规范化后,其表现胜过更新的模型。我们在 Penn Treebank 和 Wikitext-2 语料库上实现了最新突破,并在 Hutter Prize 数据集上建立了更强大的基线。

通过协商实现沟通

作者:Kris Cao,Angeliki Lazaridou,Marc Lanctot,Joel Z Leibo,Karl Tuyls,Stephen Clark

多代理强化学习提供了一种方法,用于研究在需要解决特定问题的代理社区中,沟通将以怎样的形式出现。我们在论文中探讨了在谈判环境中,沟通将如何出现——一种半合作的代理沟通模型。我们介绍了两种沟通协议,一种是基于游戏语义的协议,另一种是无根据的,并且是基于廉价谈话的。我们发现,自利的代理可以使用有根据的沟通渠道进行公平谈判,但无法有效地使用无根据的渠道。然而,亲社会代理确实学会了使用廉价谈话来寻找最佳的谈判策略,这表明合作对于语言的出现来说是必要的。我们还研究沟通行为,让一个代理与社区中不同亲社会等级的代理进行沟通,并展示代理识别将如何协助谈判的进行。

从原始视觉输入学习组合逆向沟通

作者:Edward Choi,Angeliki Lazaridou,Nando de Freitas

人类语言的一个显著特点是其合成性,它使我们能够用有限的词汇来描述复杂的环境。之前的研究已经表明,神经网络代理可以学会使用基于高度结构化组合语言进行通信。然而,人类却无法基于总结特征学会沟通。在我们的研究中,我们通过训练神经系统基于原始图像像素开发视觉感知,并学习如何与一系列离散符号沟通。代理参与图像描述游戏,其中图像包含了颜色和形状等元素。我们使用逆向转换技术来训练代理,其中代理会生成最大化自己理解的消息。通过定性分析、可视化和零点测试,我们发现代理可以基于原始图像像素开发出具有合成属性的语言。

用于探索的噪音网络

作者:Meire Fortunato,Mohammad Gheshlaghi Azar,Bilal Piot,Jacob Menick,Matteo Hessel,Ian Osband,Alex Graves,Volodymyr Mnih,Remi Munos,Demis Hassabis,Olivier Pietquin,Charles Blundell,Shane Legg

我们将介绍 NoisyNet,一个深度强化学习代理,在权重中加入了参数噪音,并将告诉大家,代理策略的诱导随机性有助于进行探索。NoisyNet 实现的方式很直接了当,只会增加很少的计算开销。 我们发现,用 NoisyNet 替代 A3C、DQN 和竞争代理(分别为熵奖励和ε贪婪)的常规探索启发式方法在各种各样的 Atari 游戏中获得了更高的分数。在某些情况下,代理超过了人类。

https://deepmind.com/blog/deepmind-papers-iclr-2018/

AI前线

紧跟前沿的AI技术社群

如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180429G0SLGI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券