ICML 2016 谷歌 DeepMind 论文上辑（大咖点评附下载）

新智元

发布于 2018-03-22 17:51:16

8040

发布于 2018-03-22 17:51:16

文章被收录于专栏：新智元新智元

【新智元导读】ICLR2016 最佳论文获奖团队、谷歌 DeepMind 有９篇论文被即将于19日召开的深度学习重要会议 ICML2016 接收。新智元系统整理，并邀百度硅谷深度学习实验室资深研究科学家王江对论文进行点评。其中，《像素神经网络》提出了一个二维循环神经网络，增强了深度RNN自然图像生成模型的能力；《卷积神经网络中循环对称性的利用》训练了旋转对称神经网络的框架；《深度强化学习的异步算法》提出了一种简单轻量的深度强化学习框架，使用异步梯度下降优化深度神经网络控制器；《基于模型加速的连续深度Q学习》提出了两种提高在连续控制领域中深度强化学习效率的补充技术。本文为上篇，下辑明天发布。

像素循环神经网络（Pixel Recurrent Neural Networks）
卷积神经网络中循环对称性的利用（Exploiting Cyclic Symmetry in Convolutional Neural Networks）
深度强化学习的异步算法（Asynchronous Methods for Deep Reinforcement Learning）
基于模型加速的连续深度Q学习（Continuous Deep Q-Learning with Model-based Acceleration）

关注新智元（AI_era）回复“0614”下载论文（请直接在公众号回复，不是在文章下评论或留言）

1. 像素循环神经网络

摘要

自然图像分布建模是无监督学习中的重大问题。该模型必须同时具有表达性、可解性（tractable）和可扩展性。我们提出了一个深度神经网络，能循序预测图像中两个维度上的像素。方法是对原始像素值离散概率建模，对图像中依赖关系的完整集合编码。构架上的创新包括多个快速二维循环层和有效利用深度循环网络中的残差连接。我们从自然图像中获得的对数似然分数显著高于先前的最高水平。我们的主要研究结果也为 ImageNet 各个数据集提供了测试基准。模型产生的样本干净、多样且具有全局一致性。

1. 引言

本文中，我们提出了二维循环神经网络（RNN），并将其用于自然图像大规模建模。所产生的 PixelRNN 含有 12 层快速二维长短时记忆（LSTM）。这些层在状态中使用 LSTM 单元，用卷积方法从数据的一个空间维度中一次性计算出所有状态。我们设计了两种类型的层：第一种是 Row LSTM，每一行都做卷积；第二种是对角线双长短时记忆（BiLSTM）层，其中以崭新的方式沿图像对角线做卷积。该网络也包含了围绕 LSTM 层的残差连接；我们发现这有助于把 PixelRNN 的深度训练到 12 层。

我们也考虑了另一种简化构架，核心组成部分与 PixelRNN 相同。我们发现通过使用 Masked 卷积，卷积神经网络（CNN）可被用于依赖度范围固定的序列模型。由此，PixelCNN 的构架是一个由 15 个层构成的完全卷积网络，所有层中保留了输入的空间分辨率，并在每个位置输出一个条件分布。

使用 PixelRNN 处理后的图片效果

PixelRNN 和 PixelCNN 都没有引入其他独立假设，就得到了像素相互依赖关系的全部 generality，也保持了每个单独像素内部 RGB 颜色值之间的依赖关系。而且，与之前那些将像素作为连续变量建模的方法相比，我们用一个简单 softmax 层实现了多项式分布，从而以离散值对像素建模。这一方法让我们的模型在表征和训练上具有优势。

本文的贡献如下。第 3 部分，我们设计了两种 PixelRNN，分别对应两种类型 LSTM 层；我们描述了一个纯粹使用卷积的 PixelCNN，这也是我们最快的构架；我们还设计了一个可扩展的 PixelRNN。第 5 部分，我们证明了使用离散 softmax 分布和采用 LSTM 层的残差连接的相对优势。接下来，我们在 MNIST 和 CIFAR-10 检测模型，取得的对数似然分数显著高于先前结果。我们还提供了大规模 ImageNet 数据集大小变换为 32*32 和 64*64 像素的结果；据我们所知（论文发表时）尚未有人提交该数据集生成模型的似然分数。最后，我们对 PixelRNN 产生的样本做了定性评价。

2. 建模

图2. 左：为了生成像素 xi, 我们以所有在 xi 左侧和上侧所生成的像素为条件。中：核为 3 的 Row LSTM。行 LSTM 的依赖域不会延续到图像的两侧边缘。右：对角线 BiLSTM 的两个方向。对角线 BiLSTM 依赖域覆盖了图像的整个背景。

图3. 对角线 BiLSTM 中，为了沿对角线并行处理，对输入的图进行了偏转，其中每一行都相对前一行偏移了一个位置。当空间层被从左到右逐列计算时，输出图被转换为原始大小。卷积核为 2。

3. 像素循环神经网络

本部分我们描述了 PixelRNN 的构成要素。3.1 和 3.2 部分，我们描述了两种类型的 LSTM 层，都使用卷积一次性计算一个空间维度的所有状态。3.3 部分，我们描述了如何整合残差连接，从而增强对拥有多个 LSTM 层的 PixelRNN 的训练。3.4 部分，我们描述了计算颜色离散联合分布的 softmax 层以及 masking 技术。3.5 部分，我们描述了 PixelCNN 构架。最后 3.6 部分，我们描述了可扩展架构。

6. 结论

我们显著增强了作为自然图像生成模型的深度 RNN。我们描述了新的二维 LSTM 层，包括可扩展到更庞大数据集的行 LSTM 层和对角线 BiLSTM 层。我们训练了 PixelRNN 对图像的原始 RGB 像素值建模。我们使用条件分布下的 softmax 层，将像素值作为离散随机变量。我们使用 masked 卷积，令 PixelRNN 对颜色信道之间的全部依赖关系建模。我们提出并评估了这些模型的在构架上进展，这些进展使模型具有多达 12 层 LSTM。

我们表明 PixelRNN 显著提高了处理 Binary MINIST 和 CIFAR-10 数据集的最高水平，也为 ImageNet 数据集的生成图像建模提供了新的测试基准。我们认为 PixelRNN 既能对空间局部相关性建模，也能对远程相关性建模，并能生成轮廓清晰一致的图像。随着模型变得更大更好，再加上有无穷的数据可供训练，进一步的计算和更大的模型可能还会进一步提升结果。

【点评】这篇文章主要提出了一种使用LSTM对图像进行建模的架构。与普通的对图像像素建模的算法相比，该算法有很多的独特的地方。首先，本文将每个像素预测建模成了256类的分类问题。其次，本文提出了Masked Convolution的概念来处理图像预测中多通道预测的问题。虽然对于单纯对图像建模的性能，本文的方法不如最新的基于adversarial的方法。但是，LSTM最近已经被证明是对于图像中空间dependency的有效模型，例如图像分割中就可以使用LSTM进行建模。PixelRNN在这种模型中可能会有用武之地。

2. 卷积神经网络中循环对称性的利用

摘要

循环对称性指的是旋转角度为 90° 整数倍时的对称性。许多图形都有旋转对称性。为了训练卷积神经网络，有时会通过数据增强来利用这个性质，但仍然需要通过数据学习旋转等价性质。平移对称性可以通过卷积层编码，若能把旋转对称性编码进网络的架构，会提高参数空间的利用率，因为不再需要学习那部分（描述旋转对称性的）参数。我们引入４种操作，它们可被作为层插入神经网络，并且可以被组合起来让模型部分地在旋转操作下等价。这４种操作还能让不同朝向下共享参数。我们用３个具有旋转对称性的数据集评估了这些结构变动的效果，发现模型更小，而性能得到了提升。

4. 神经网络里的编码等效性

本节只讲了循环对称性的情况，也就是旋转的角度是 90° 整数倍，但我们提出的框架可以被推广到别的情景。

(a) 浮游生物的图片 (b) 星系的图片

波士顿地区建筑 (a) 卫星图像 (b) 建筑标签

左中右分别为浮游生物、星系图像和波士顿建筑的基础架构。红色代表卷基层，蓝色代表 pooling 层，黄色代表 dense 层

7. 总结

我们介绍了构建旋转对称神经网络的框架，只需要使用４个新的层，它们可以很容易地插入现有的网络架构。除了需要调整训练所需的 minibatch 大小，不需要别的改动。拥有完全对称性的数据集上新的模型，性能提高而参数更少。使用 Theano 对滚动操作的快速 GPU 实现（见此：https://github.com/ benanne/kaggle-ndsb）。

未来我们希望把文中所讲的方法用于别的具有旋转对称性的数据，特别是那些缺少数据的领域，比如医学图像，以及参数共享有助于减少过度拟合的领域。我们还想把该方法扩展到别的变换群，比如旋转角度不是 90° 整数倍的情况，以及探索内插和对齐带来的复杂性的掌控策略。最后，我们希望把工作延伸到体积数据，在这里参数数量的减少更加重要，并且很多对称性都可以被利用起来而无需繁重的内插。

3. 深度强化学习的异步算法

摘要

我们提出了一种在概念上非常简单并且轻量的深度强化学习框架，使用异步梯度下降优化深度神经网络控制器。我们展示了 4 种标准 RL 算法的异步模型变体，表明并行 actor-learner 在训练中能带来稳定化的影响，使所有 4 种方法都能顺利训练出神经网络控制器。相比目前最领先的方法，论文中表现最好的方法——actor-critic（AC）的异步变体——ATARI游戏表现更好，训练用时仅为一半，并且使用的是一个多核CPU而非GPU。不仅如此，我们展示了异步 AC 方法在各式连续运动控制问题，以及一个新任务（包含使用视觉输入在一个随机 3D 迷宫中寻找到奖励）同样表现出色。

1. 引言

深度神经网络提供了丰富的、能让强化学习（reinforcement learning，RL）算法高效运行的表征。但之前人们认为，将简单的在线RL算法与深度神经网络相结合从根本上来说是不稳定的。为了让算法能够稳定化，研究者提出了许多解决方案。这些方法的核心是相似的：一个在线RL代理（agent）取得的观测数据的顺序是非平稳的（non-stationary），在线RL的更新相互之间会有很高的相关性。通过将数据储存在经验回放记忆体（experience replay memory）之中，数据将可以根据不同的时间步长分批处理或是随机采样。用这种方法整合记忆体中的数据会降低非平稳性，降低更新互相之间的相关性，但同时也令这些方法的适用范围仅限于离策略（off-policy）RL算法。

ATARI 2600之类的充满挑战的领域中，基于经验回放的深度RL算法一鸣惊人。但是，经验回放有一些缺陷：每一次真实交互（real interaction），它都需要耗用更多的内存和计算力，并且它要求离策略学习算法能基于旧策略生成的数据进行更新。

这篇论文中，我们为深度RL提供了一种迥异的范式。与经验回放不同，对于环境中的多个实例，我们并行、异步地执行多个 agent。在任意时间步长，并行 agent 都将会历经许多不同的状态，这种并行性也能令 agent 的数据去相关，更接近平稳过程（stationary process）。这个简单的想法使得深度神经网络能被稳健且高效地应用于数量更为庞大的在策略（on-policy）RL算法——比如 Sarsa、n步方法——以及AC方法和Q学习之类的离策略（off-policy）RL算法。

异步RL范式也在实际操作上也有优点。原先的深度RL非常依赖硬件，比如GPU或是HPC，而我们的实验用机只是拥有一个标准多核CPU。学习各类ATARI 2600时，异步RL在许多游戏中都获得了更好的表现，训练耗时比原先基于GPU的算法短得多，消耗资源也比HPC少得多。不仅如此，我们提出的方法中表现最好的A3C方法（asynchronous advantage actor-critic），还能够良好适用于各类连续运动控制任务、也能仅仅从视觉输入中学会探索3D迷宫的通用策略。我们相信，A3C能在2D和3D游戏、离散和连续动作空间上同时获得成功，A3C能训练前馈和递归 agent，使它成为目前最通用、最成功的RL agent。

4. 异步无锁（lock-free）强化学习

我们现在展示的是一步Sarsa、一步Q学习、n步Q学习、优势AC（advantage actor-critic）的多线程异步变体。设计这些方法的目的，是寻找出能可靠训练深度神经网络策略、无需大量资源的RL算法。虽然这 4 个基础的RL方法相当不同，其中AC是一种在策略搜索方法、而Q学习是一种离策略基于价值（value-based）的方法，我们通过两个操作令这 4 种算法能够得以实现并进行比较。

首先，我们运用 Gorila 框架中提出的异步 actor-learner，不过是在一台机器上使用多线程，而非使用不同的机器和一个参数服务器。我们让学习器位于同一台机器，免除了在不同机器间传输梯度和参数的消耗，也使我们能使用 Hogwild! 式更新训练控制器。

其次，我们将观测做成了多个并行 actor-learner 有可能对环境的不同部分进行探索的形式。不仅如此，你可以在每个 actor-learner 中人为使用不同的探索策略实现最大化多样性的目的。通过在不同线程中运行不同的探索策略，多个并行在线更新的 actor-learner 对参数改变的总和，最终将有可能比一个单独进行在线更新的 agent 做的更新，互相之间相关性更低。因此，我们不使用回放记忆体，而是依赖于采用不同探索策略的并行行动者，替代DQN训练算法中经验回放提供的稳定化效果。

除了令学习得以稳定化，使用多个并行 actor-learner 也有一些实际的好处。第一，减少训练时间，减少幅度大致上与并行 actor-learner 的数量呈线性相关。第二，由于不再依赖经验回放让学习稳定化，我们能使用在策略强化学习方法——比如Sarsa和AC——以稳定的方式训练神经网络。

6. 结论和讨论

我们展示了 4 种标准RL算法的异步版本，并表明了它们能够以稳定的方式训练许多领域中的神经网络控制器。在我们提出的框架中，基于价值的算法和基于策略的算法、离策略和在策略算法，离散性任务和连续性任务，都有可能在RL中稳定训练神经网络。当我们用 16 核CPU训练ATARI任务时，我们提出的异步算法训练速度比Nvidia K40 GPU训练DQN的速度快，其中A3C算法的训练用时比目前最领先的方法少一半。

我们的一个主要发现是，使用并行 actor-learner 更新一个共享模型，对于我们研究的 3 种基于价值的算法的学习过程都具有稳定化影响。虽然这表明稳定的在线Q学习可能脱离经验回放，但是这不意味着经验回放是无用的。将经验回放整合入异步RL框架，有可能通过重复利用旧数据大幅提高这些方法的数据效率。这可能会进而在与环境交互的消耗比更新模型的消耗更大的领域（比如TORCS）带来更快的训练速度。

将其他现有的RL模型或是深度RL近期进展与我们的异步框架相结合，展现出了许多迅速优化我们在文中展示的算法的可能性。我们展示的n步模型是向前的（forward view），直接使用修正后的n步回报作为目标，但是使用向后的方法在资格迹（eligibility trace）中结合不同的回报已经变得更为常见。通过使用其他估计优势函数的方法——比如Schulman等人（2015b）的泛化优势估计——可能会切实改善A3C算法。所有我们研究的基于价值的方法，都有可能受益于用各种方式降低Q值的高估误差（over-estimation bias）。而另一个更值得揣摩的方向是，尝试结合近期真正的在线时间差分方法的研究与非线性函数逼近。

4. 基于模型加速的连续深度Q学习

摘要

模型无关的强化学习被成功应用于许多难题，最近还被用于处理大型神经网络策略和价值函数。然而，模型无关的算法的样本复杂度往往限制了它们在硬件系统中的应用，尤其是使用高维函数逼近器时。本文中，我们对算法和表示进行了探索，降低对连续控制任务的深度强化学习的样本复杂度。我们还提出了两个补充技术，用于提高这些算法的效率。

1. 引言

本文中，我们提出了两种补充技术，用于提高在连续控制领域中深度强化学习的效率：我们取得了一个Q学习变量，它可被用于连续领域；我们也提出了一种方法来把这种连续Q学习算法与已学到的模型联合起来以对学习进行加速，并保留模型无关的强化学习的好处。在连续行动领域中的模型无关的强化学习，通常使用策略搜索方法来处理。将价值函数估计整合到这些技术中，就会产生 actor-critic 算法，这种算法兼具策略搜索和价值函数估计的有点，但缺点是需要训练两个彼此分离的函数逼近器。我们提出的连续领域Q学习算法称为归一化优势函数（NAF），它避免了对第二个行动者或策略函数的需求，从而带来了更简洁的算法。更简洁的优化目标和对价值函数参数化的选择，让算法应用于一些连续控制领域的大型神经网络函数逼近器时，样本使用效率明显更高。

除了完善一种模型无关的深度强化学习算法，我们也试图让算法包含基于模型的强化学习要素，从而加速学习，同时不丧失模型无关方法的那些优点。一种方法是，让Q学习算法等离策略算法包含由基于模型的规划器所产生的离策略经验。然而，尽管这种方案看起来很自然，但经验评估表明它对学习进行加速时缺乏效率。这部分是因为价值函数估计算法的本性：这种算法为了对价值函数局面精确建模，好的和坏的状态转变都必须经历。我们提出了一种替代方法，把学习到的模型整合到我们的连续行动Q学习算法中。该方法基于 imagination rollout：类似于 Dyna-Q 方法，从学习到的模型中产生出在策略样本。我们表明，当学到的动态模型与真实模型完美匹配时，这种方法极其有效，但在学习到的不完美的模型情况下则会戏剧性地下跌。不过，反复让局部线性模型去适应最新的在策略或离策略 rollout 批次，这种方法能提供充分的局部精确性，从而让我们能在真实世界样本的临近区域使用 short imagination rollout 实现实质性的进步。

我们的论文有三个主要贡献：第一，我们取得并评价了一个Q函数表示，能够在连续领域中进行有效的Q学习；第二，我们评估了几个能够把学习到的模型包含进模型无关的Q学习的选项，并表明在我们的连续控制任务中，它们都缺乏效率。第三，我们提出，联合局部线性模型和局部在策略 imagination rollout，加速对模型无关的连续Q学习，并证明了这能带来样本复杂度方面的显著进步。

7. 讨论

我们在文中探索了几种方法，提高模型无关的深度强化学习的样本使用效率。我们首先提出了一种方法，把标准Q学习方法应用于高维、连续领域，并使用了 NAF 表示。这让我们能够简化更常见的 actor-critic 式算法，同时保留非线性价值函数逼近器的好处。

与近年提出的深度 actor-critic 算法相比，我们的方法常常学得更快，能获得更准确的策略。我们进一步探索了模型无关的强化学习如何能通过整合已学到的模型而获得加速，并不需要在面临不完美模型学习时牺牲策略优化方面的代价。尽管Q学习能包含离策略经验，（通过基于模型的规划）从离策略探索中学习只在极少情况下提高了算法的总体样本使用率。我们假定原因是为了获取对Q函数的准确估计，需要同时观察成功和不成功的行动。另一种基于综合在策略 rollout 的替代方法能显著改善样本复杂度。我们表明，训练神经网络模型并不能在我们的这一领域中取得实质性改善，而就让随时间变化的线性模型反复再适应，却能在它们所应用的领域中带来显著的提高。

【点评】本文提出了使用模型对Q-learning进行加速的算法。本文由两个创新点。首先，本文提出了normalized advantage function作为Q-learning的目标。更重要的是，本文提出了使用一个线性的模型为Q-learning产生训练数据。在本文的实验中，线性模型产生的数据产生了很好的作用。但是，对于更加复杂的Q-learning问题，比如以图像作为输入的问题。线性模型是否是一个很好的模型还存在疑问。

关注新智元（AI_era）回复“0614”下载论文（请直接在公众号回复，不是在文章下评论或留言）

下辑将于明天发布，敬请期待

专家介绍

王江，在复旦大学获得学士和硕士学位，在美国西北大学获得博士学位。曾在微软亚洲研究院、微软Redmond研究院、Google研究院、Google图像搜索组实习，现在百度硅谷的深度学习实验室任资深研究科学家。他的研究成果在顶级学术会议和期刊PAMI、CVPR、ICCV、ECCV、 ICLR、CIKM中发表论文20余篇，并被广泛引用总共近1000次。他的工作在Google和百度的图像检索系统、人脸识别系统和大规模深度学习中均得到了广泛的应用。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2016-06-14，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习