ICML2016最佳论文《深度强化学习的竞争网络架构》(附下载)

【新智元导读】ICML2016最佳论文今天出炉,三篇最佳论文中,谷歌DeepMind占了两篇。新智元特邀Facebook资深研究员田渊栋对其中的《深度强化学习的竞争网络架构》进行点评。

获本年度ICML最佳的三篇论文如下:

  • Monday – Ballroom 3+4 – 12:04 – Dueling Network Architectures for Deep Reinforcement Learning Ziyu Wang Google Inc., Tom Schaul Google Inc., Matteo Hessel Google Deepmind, Hado van Hasselt Google DeepMind, Marc Lanctot Google Deepmind, Nando de Freitas University of Oxford
  • Monday – Ballroom 1+2+Juliard – 03:44 – Pixel Recurrent Neural Networks Aaron Van den Oord Google Deepmind, Nal Kalchbrenner Google Deepmind, Koray Kavukcuoglu Google Deepmind
  • Tuesday – Soho – 05:44 – Ensuring Rapid Mixing and Low Bias for Asynchronous Gibbs Sampling Christopher De Sa Stanford, Chris Re Stanford University, Kunle Olukotun Stanford

【田渊栋】:DQN系列的方法用的是Reinforcement Learning中的Q-learning, 即给定状态s,给下一步的行动a打分,分数记为Q(s, a),然后选取分高者作为这一步的最优策略。Q这个函数可以很复杂,特别是当状态由当前图像的像素值直接表示的时候,所以现在流行的方法是用卷积神经网络读取图像s,得到中间特征,然后再加上若干层全相连层去预测Q(s, a)在每个a上的值。

而这篇文章的主要贡献很简单,在这个神经网络上稍微改进了一下,在得到中间特征后兵分两路,一路预测估值函数V(s),另一路预测相对优势函数Advantage function A(s, a),两个相加才是最终的Q(s, a)。这样做的好处是V(s)和A(s, a)有各自的意义,V(s)是对当前状态的长远判断(Expected Return),而A(s, a)则衡量在当前状态s下,不同行为的相对好坏,这就是所谓的Dueling Network Architecture(图2)。

如果状态s1比状态s2总体要好,那么每个Q(s1, a)相对每个Q(s2, a)要高,而需要Q(s, a)的每项都去拟合这种“低频分量”,会在某种程度上费去神经网络的“容量”,不是最优的办法;而将Q(s, a)分解为V(s)及A(s, a)的和就没有这个问题。当然这个只是直觉印象,不一定是真实情况。实验上用了57个Atari Games,算是比较多(也是比较靠谱的),从表1看起来,新方法和老方法相比略好些,相反是各种其它的因素,如Gradient Clip,和Prioritized Experience Replay,对结果的影响更大。

作者介绍:田渊栋,卡耐基梅隆大学机器人系博士,Facebook人工智能组研究员,Facebook围棋项目组负责人,曾在Google自动驾驶研究小组任软件工程师。


以下是新智元对该论文的介绍:

关注新智元(AI_era)回复“0616”下载论文(请直接在公众号回复)

论文题目:深度强化学习的竞争网络架构

摘要

近几年有许多将深度表征运用于强化学习的成功例子。其中,许多应用使用的仍然是传统的架构,比如说卷积网络、LSTM 或是自动编码器。这篇论文中,我们提出了一种用于无模型(model-free)强化学习的全新神经网络架构。我们的竞争网络代表了两个不同的估计器:一个是状态价值函数的估计器,另一个是基于状态的行动优势函数的估计器。将其分离开的主要好处是,不改动基础强化学习算法就能泛化学习。结果表明,有许多价值相似的行动时,这种架构的策略评估更好。不仅如此,竞争架构使我们的RL代理在ATARI 2600的表现超过了目前最领先的方法。

1. 引言

我们将提出的这个网络架构命名为“竞争架构”(dueling architecture),它将状态价值的表征与(依赖状态的)行动优势的表征明显区分开。竞争架构中包括了 2 条代表价值与优势函数的流,它们共用一个卷积特征学习模块。就像图1显示的那样,2 条流在一个特殊的整合层中相互结合,生成一个对于状态-行动价值函数Q的估计。这个竞争网络应当被理解为一个单独的、有 2 条流的Q网络,在现有的算法中可以替代流行的单流Q网络,比如深度Q网络(DQN)。竞争网络会自动生成对于状态价值函数和优势函数的分别估计,无需任何额外的监督。

图1:上方是一个流行的单流Q网络,下方是竞争Q网络。竞争网络有 2 条流,用以为每个行动分别估计(标量)状态价值和优势。这两种网络都会为每个行动输出Q值。

直观看,不了解每个状态下每个行动的效果时,竞争架构能了解哪些状态是(或不是)有价值的。这对于那些行动不会以任何相关的方式影响到环境的状态来说尤为有用。为了展示这一点,请想象图2里的显著性地图(saliency maps)。这些地图是根据 Simonyan 等人(2013)提出的方法,通过将训练后的关于输入视频的价值流与优势流相结合而生成的(实验部分描述了具体方法)。图中显示了两种不同时间步长下的价值显著性地图与优势显著性地图。

在一种时间步长中(见下图中上面两张图),价值网络流对于道路、特别是地平线区域(那里会有新的车辆出现)投注了许多注意力,它也注意着分数。而优势流则不太关注视觉输入,因为它的行动选择在前方没有车辆时与图像实际上是无关的。然而,在第二种时间步长下(见下图中下面两张图),优势流对画面投以了注意力,因为有车辆在前方,令它的行动选择与前方车辆非常相关。

图2:观看、注意和驾驶:一个训练完的竞争架构在ATARI游戏 Enduro 的价值显著性地图与优势显著性地图(红色标注)。价值流学会对路面投以注意。优势流学会只在前方有车辆时投以注意,以此避免碰撞。

实验中我们展示了,多余行动或是相似行动被添加到学习问题中时,竞争架构能更快在策略估计中识别出正确的行动。

我们也评估了竞争架构将会对充满挑战的ATARI 2600测试任务带来的益处。这个领域中,一个具有某种结构和某些超参数的RL代理(agent)必须能够通过仅仅观察图像像素和游戏分数就学会玩 57 种不同的游戏。结果表明,我们的方法使对于 Mnih 等人(2015)和 van Hasselt 等人(2015)单流基线的极大提升。将优先回放(prioritized replay)与我们提出的竞争网络相结合,形成了这个流行的领域中最领先的方法。

3. 竞争网络架构

我们新架构的核心意义是,就像图2中显示的那样,对于许多状态来说,无需为每个行动选择都估计价值。例如 Enduro 游戏中,只有当可能发生碰撞时,才有必要了解要往左还是往右移动。在一些状态中,了解要采取什么行动至关重要,然而许多其他状态下,行动选择对于事态发展毫无影响。但对于基于自展(bootstrapping)的算法,每个状态下状态价值的估计都非常重要。

为了将这种意义落到现实,我们设计了一种单个Q网络的架构(见图1),我们将它称为竞争网络。竞争网络的底层和原始的DQN一样,是卷积的。但是,不像DQN在卷积层之后紧随的是单独一序列全连接层,我们使用了两列(或者说流)全连接层。这些流拥有为价值函数和优势函数提供分别估计的能力。最后,两条流相互结合,生成了一个单独的Q函数输出。

5. 讨论

竞争架构的优点,部分在于它高效学习状态-价值函数的能力。竞争架构中,价值流V随着每次Q值的更新而更新——这与单流架构中的更新有所区别,单流架构中只有一个行动的价值得到更新,其他所有行动保持不变。我们的方法中这种对于价值流更频繁的更新使得价值流V获得了更多分配的资源,因此带来了对于状态价值的更好的逼近,这对于让基于时间差分的方法——比如Q学习——能成功运行是很有用的。实验中反映出了这种现象:当行动数量很大时,竞争架构相对于单流Q网络的优势也随之扩大。

更重要的是,给定状态下,不同Q值的差别相对于Q值的量级非常之小。例如,用 Seaquest 游戏训练完DDQN后,有记录的状态中,各状态之间的平均行动差距(给定状态下最好与次好行动的价值差)大约是 0.04,而对各状态计算的平均状态价值差不多是 15。这种在量级上的差别可能在更新中导致少量噪音,因此让接近贪婪的策略发生急剧转变。拥有两条独立流的竞争架构在这个问题上是稳健的。


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

神“乐”马良:AI直接将音频转换成动画

【新智元导读】根据音乐信号预测身体的运动是一个极具挑战性的计算问题。来自Facebook、斯坦福大学和华盛顿大学的研究人员开发了一种基于深度学习的方法,该方法可...

13500
来自专栏机器之心

ICASSP 2018 | 阿里巴巴论文提出针对影视作品的语音情感识别信息融合框架

机器之心发布 作者:陶菲/Fei Tao、刘刚/Gang Liu、赵情恩/Qingen Zhao 语音领域的顶会 ICASSP 2018 将于 4 月 15-2...

40080
来自专栏人工智能LeadAI

最全常见算法工程师面试题目整理(二)

接着上回写的《最全常见算法工程师面试题目整理(一)》,继续填接下来的坑。 11boost算法的思路是什么样的?讲一下你对adaboost 和 gbdt的了解? ...

62360
来自专栏机器学习之旅

总结:常见算法工程师面试题目整理(二)

答: boost的核心思想不同于bagging,它在基于样本预测结果对照与真实值得差距,进行修正,再预测再修正,逐步靠近正确值。

11120
来自专栏计算机视觉战队

CVPR 2018论文解读 | 学习在黑暗中看世界(Learning to See in the Dark)

今天和大家来说的这个技术很有意思,因为大家都在夜晚拍照过,拍出来的效果要不是模糊要不是曝光时间短带来噪点。

58820
来自专栏大数据文摘

Yann LeCun说是时候放弃概率论了,因果关系才是理解世界的基石

21440
来自专栏人工智能头条

人工智能进行连续决策的关键——强化学习入门指南

17020
来自专栏大数据

数据科学如何最大化社交网络影响力?(上)

社交网络早已是我们生活中不可缺少的一部分,更是网络时代营销活动的重点投放渠道;如何使社交网络的影响力最大化,也成了数据科学关注的重点。本期,我们介绍线性阈值模型...

29480
来自专栏数据科学与人工智能

【深度学习】深度学习入门资源索引

深度学习(Deep Learning)属于非常前沿的学科,没有现成的的综合型教材,主要是通过阅读大量论文和代码练习来学习。值得读的经典论文很多,下面介绍的一些教...

30780
来自专栏新智元

解密 NIPS2016 论文评议内幕(附 DeepMind 8 篇论文下载)

【新智元导读】备受推崇的顶级会议NIPS预计12月举行,但从4月起议论就没有停,尤其是围绕论文。今天,组织方公开了NIPS 2016论文评议过程,本文就从这届会...

391150

扫码关注云+社区

领取腾讯云代金券