学界 | DeepMind提出Rainbow:整合DQN算法中的六种变体

选自DeepMind

机器之心编译

参与:李泽南、蒋思源

「AlphaGo 之父」David Sliver 等人最近探索的方向转向了强化学习和深度 Q 网络(Deep Q-Network)。在 DeepMind 最近发表的论文中,研究人员整合了 DQN 算法中的六种变体,在 Atari 游戏中达到了超越以往所有方法的表现。

大规模强化学习(RL)在复杂连续决策问题中最成功的方法是 Deep Q-Network 算法(DQN; Mnih et al. 2013, 2015)。它包含了 Q 学习的卷积神经网络与以及反复经验(experience replay)而从原像素中学习,已在多种 Atari 游戏中达到或超过了人类水平的表现。从那时起,很多扩展性方法被不断提出,不断提升着这种方法的速度和稳定性。

Double DQN(DDQN;van Hasselt、Guez&Silver;2016)通过解耦选择(decoupling selection)和引导行动评估解决了 Q 学习过度估计偏差的问题。Prioritized experience replay(Schaul 等人;2015)通过重放(replay)学习到更频繁的转换,提升了数据效率。dueling 网络架构(Wang 等人;2016)可以通过分别表示状态值和动作奖励来概括各种动作。从多步骤引导程序目标中学习(Sutton;1988;Sutton & Barto 1998)如 A3C(Mnih 等人;2016)中使用偏差-方差权衡而帮助将最新观察到的奖励快速传播到旧状态中。分布式 Q 学习(Bellemare、Dabney & Munos;2017)学习了折扣回报(discounted returns)的分类分布(代替了估计平均值)。Noisy DQN(Fortunato 等人;2017)使用随机网络层进行勘测(exploration)。当然,以上几种方法还不是全部。

图 1. 57 个 Atari 游戏中等人类水平与各类 DQN 方法的对比。研究人员将各类 DQN 方法结合起来(彩虹色)与 DQN(灰色)和各自的表现基准进行了对比(其他各颜色)。DQN 混合方法的优势在 7 百万帧后开始显现,在 4400 万帧后大幅度领先,随后性能提升趋于平缓。

以上这些算法各自都可以提升 DQN 性能的某个方面,因为它们都着力于解决不同的问题,而且都构建在同一个框架上,所以能够被我们整合起来。在一些例子中这种方法已经被使用过了:Prioritized DDQN 和 Dueling DDQN 都使用了 Q 学习,Dueling DDQN 也结合了 prioritized experience replay。在 DeepMind 最近发表的论文中,研究人员讨论了综合上述所有方法的整合性方案,并提出了单智能体系统:Rainbow。研究人员展示了整合后的表现,证明了它们很大程度上是互补的。实际上,这些组合在 57 个 Atari 2600 游戏组成的基准测试环境中在数据效率和最终结果上都达成了新的业界最佳水平。该研究也提供了分类测试结果,显示了每种组件对于提升性能的贡献。

表 1. Rainbow 的超参数。在 57 种 Atari 游戏的测试中,研究使用了同一个智能体和参数。

表 2. Rainbow 和其他测试基准的表现分数对比。

图 4. 所有 57 个 Atari 游戏的独立智能体(ablation agents)性能下降测试。性能是学习曲线下的面积,相对于 Rainbow 智能体和 DQN 进行了规则化。其中,DQN 超越 Rainbow 的两种游戏被剔除了。导致性能下降最严重的组件在每个游戏中都被高亮显示了。删除优先级和多步骤学习在大多数游戏中造成的性能影响最大,不过每个组件在不同游戏中的影响各有差异。

论文:Rainbow: Combining Improvements in Deep Reinforcement Learning

论文链接:https://arxiv.org/abs/1710.02298

深度强化学习社区对于提升 DQN 算法的性能已经做出过很多种独立的改进尝试。但是,目前我们尚不清楚这些扩展是不是互补的——它们是否可以互相结合?在本论文中,我们研究了 DQN 算法的 6 个扩展,对其组合进行了实证研究。我们的实验组合在 Atari 2600 基准测试中,数据效率和最终表现上都实现了实现了业内最佳水平。我们也提供了详细的研究结果,其显示了每种组件对于总体性能的贡献。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

塔秘 | DeepMind提出Rainbow:整合DQN算法中的六种变体

导读 「AlphaGo 之父」David Sliver 等人最近探索的方向转向了强化学习和深度 Q 网络(Deep Q-Network)。在 DeepMind...

28711
来自专栏数据科学与人工智能

余凯在清华的讲座笔记

2014.4.4,余凯在清华FIT楼做了“Deep Learning Unfolds the Big Data Era”的讲座。感觉这个讲座还是比较high-l...

25010
来自专栏大数据文摘

吴恩达的课上完了?如何科学开启你的深度学习论文阅读生涯

当你阅读了深度学习相关的书籍或者上过精彩的在线课程后,你将如何深入学习?如何才能够“自力更生”,独立地去了解相关领域中最新的研究进展?本文作者Nityesh A...

921
来自专栏新智元

DeepMind的AI学会了画画,利用强化学习完全不需人教

直播链接 2018 新智元产业跃迁 AI 技术峰会今天隆重启幕,点击链接观看大会盛况: 爱奇艺 http://www.iqiyi.com/l_19rr3aqz...

3055
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[1.1]:前馈神经网络——人工神经元

目前,深度学习已经成为了一门热门的技术。很多开发人员想系统的学习一下深度学习,但苦于没有找到一个很好的平台。基于此,AI100 开始引入 Hugo Laroch...

3638
来自专栏大数据文摘

资源 | 没有数学和编程基础,这几个数据科学项目了解一下

今天,文摘菌给大家介绍几个比较有特色的数据科学模块,这些模块原本是一些教师用来进行教学使用,帮助学生有机会使用与其课程相关的数据集,并指导学生进行数据分析以及帮...

1275
来自专栏机器之心

资源 | Bengio等人的2018夏季课程视频终放出,但有些沉重

MILA 2018 夏季课程包括深度学习夏季课程(DLSS)和强化学习夏季课程(RLSS)。Yoshua Bengio 等人组织的夏季课程每年都非常受关注,每一...

892
来自专栏机器人网

漫谈游戏的深度学习算法,从FPS和RTS角度分析

人工智能那么火热,作为游戏行业的技术人员可定也不会放过,今天,我们就一起来聊聊,在游戏中人工智能是如何实现深度学习技术的。  我们关注基于深度学习的游戏 AI ...

55814
来自专栏新智元

【ICCV 13大不可错过的有趣项目】实时任意风格迁移、手机照片背景模糊……

来源:techcrunch 作者:Devin Coldewey 编译:马文 【新智元导读】计算机视觉领域顶会之一的 ICCV 结束不久,图像质量提升、从头创建...

4017
来自专栏机器之心

学界 | 学习顶级玩家Replay,人工智能学会了星际争霸的「大局观」

选自arXiv 机器之心编译 参与:李泽南 学会了哥的运营,剩下的就是 A 了——「F91」孙一峰。 神经网络是机器学习的一个重要分支,近年来随着深度学习的兴起...

3536

扫码关注云+社区

领取腾讯云代金券