DeepMind最新ICML论文:价值分布方法超越所有传统强化学习

【新智元导读】DeepMind 在他们的 ICML 2017 论文 A Distributional Perspective on Reinforcement Learning 中,提出不仅可以对奖励的平均值进行建模,还可以对奖励的所有变化进行建模,即价值分布(value distribution)。相比以前的模型,这种方法能让RL系统更准确,训练更快,更重要的是,它启发我们重新思考强化学习。

设想一位每天乘坐列车通勤的人。大多数早晨,她的列车都能准时发车,她能轻松有备地赶上早会。但她清楚一旦有一点点意外发生:机械故障,信号失灵,甚至仅仅是碰到雨天,都可能扰乱她的模式,造成她迟到或慌乱。

随机性(randomness)是我们每天都可能遇到的,深深影响着我们对世界的体验。强化学习(RL)应用程序中也是这样。强化学习是通过试错法学习的系统。通常,一个RL算法从一个任务的多次尝试中预测能获得的平均奖励,并使用这个预测来决定采取何种行动。但是,环境中的随机扰动(random perturbation)可以通过改变系统收到的确切的奖励来改变它的行为。

DeepMind在他们的ICML 2017论文《强化学习的一个分布视角》(A Distributional Perspective on Reinforcement Learning)中,提出不仅可以对奖励的平均值进行建模,还可以对奖励的所有变化进行建模,即价值分布(value distribution)。相比以前的模型,这种方法能让RL系统更准确,训练更快,更重要的是,它可能启发我们重新思考强化学习。

回到通勤的例子,假设这个旅程是3段5分钟的路程,其中每周会有一次列车发生故障,时间需要再增加15分钟。平均通勤时间可以计算为:(3×5)+ 15/5 = 18分钟。

在强化学习中,我们使用贝尔曼方程来预测平均通勤时间。具体来说,贝尔曼方程将当前的平均预测与即将要做的平均预测联系起来。从第一站开始,我们预测平均旅程是18分钟(总的平均时间);从第二站开始,我们预测平均旅程是13分钟(减去第一段距离的平均时间);最后,假设列车没有遇到故障,从第三站到到达目的地,我们预测通勤还需要的时间是8分钟(13分钟减去5分钟)。贝尔曼方程式连续地分别进行预测,并根据新的信息更新预测结果。

关于贝尔曼方程,有一点违反直觉的是,我们并没有实际观察到这些预测的平均值:通勤时间要么是15分钟(5天中的4天),要么是30分钟——从来不会出现18分钟!从纯粹数学的角度看,这不是一个问题,因为决策理论(decision theory)认为,我们只需要用平均值就能做出最好的选择。结果,这个问题在实践中大都被忽略了。但是,有大量实证证据表明,预测平均值是非常复杂的。

在我们的新论文中,我们提出贝尔曼方程的一个变体实际上可以预测所有可能的结果,而不用对它们进行平均。在我们的例子中,我们在每个站保持两个预测——一个分布:假如旅程顺利,那么时间分别是15分钟,10分钟,5分钟。但如果火车发生故障,那么时间分别是30分钟,25分钟,以及最后一段是20分钟。

在这个新角度下,所有的强化学习都可以重新解释,其应用已经带来一些惊人的理论成果。预测结果的分布也启发了各种算法的可能性,例如:

  • 解除随机性的来源:一旦观察到通勤时间呈现双峰形,即采取两个可能的值,那么我们可以针对这些信息采取行动,例如在离家之前检查火车时刻表是否有更新;
  • 将安全和有风险两种选择分开:当两个选择的平均结果相同(例如,步行或乘火车所需时间相同)时,我们可能倾向于风险小的选择(步行);
  • 自然辅助预测:预测多个结果,例如通勤时间的分布,已经被证明有利于更快地训练深度网络。

我们在DQN(Deep Q-Network)智能体实施我们的新想法,并以51个可能值的分布代替单一的平均奖励。另一个变化是新的学习规则,反映了从贝尔曼(平均)方程到它对应的分布式方程的转变。结果证明,从平均值转变为分布的方法超越了其他所有类似方法的表现,并且是大幅度的超越。下图显示,我们的方法只用25%的时间获得了已训练好的DQN的75%的性能,并且其性能远超人类表现。

一个令人惊讶的结果是,我们观察到在Atari 2600 游戏中有一些随机性,尽管底层游戏模拟器Stella本身是完全可预测的。这种随机性的出现部分是由于“部分可观察性”(partial observability):由于模拟器的内部编程,智能体在玩乒乒球游戏时无法预测得分的准确时间。通过可视化智能体对连续帧的预测(如下图),我们观察到两个单独的结果(低和高),反映了可能的时间。虽然这种内在的随机性并没有直接影响性能,但我们的结果突出了智能体在理解上的局限性。

随机性的出现是由于智能体自己的行为不确定。在“太空侵略者”(Space Invader)游戏中,智能体学习预测未来可能会发生失误并输掉游戏的可能性(零奖励)。

就像火车旅行那个例子一样,对这些不同的结果分别进行预测是有意义的,而不是将它们总计为一个不现实的平均值。实际上,我们认为这一改进的结果很大程度上是由于智能体自身具有对随机性建模的能力。

我们的实证结果表明,分布视角能带来更好、更稳定的强化学习。由于每个强化学习概念都可能有一个对应的分布式方法,这可能是这一方法的开端。

论文:A Distributional Perspective on Reinforcement Learning

下载地址:https://arxiv.org/abs/1707.06887

摘要

在这篇论文中,我们认为价值分布的基本重要性在于:强化学习智能体所接收到的随机回报的分布。这与强化学习的一般方法大不相同,一般的方法是对这一回报或价值的期望进行建模。虽然有很多研究价值分布的文献,但迄今为止,价值分布的研究主要被用于实施风险意识行为(risk-aware behaviour)等具体的目的。我们从政策评估和控制环境的理论结果作为开端,揭示了分布的不稳定性。然后,我们使用分布视角设计了一种将贝尔曼方程应用于学习近似值分布的新算法。我们使用Arcade学习环境中的游戏套件评估我们的算法。我们得到了state-of-the-art的结果,并且证明了近似强化学习中价值分布的重要性。最后,我们结合理论和经验证据,强调了在近似环境中值的分布影响学习的方式。

原文:https://deepmind.com/blog/going-beyond-average-reinforcement-learning/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【推荐】开发者成功使用机器学习的十大诀窍

作者|Alexander Gray 编译|刘帝伟 转自|CSDN 在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应...

2403
来自专栏机器之心

观点 | 我们该如何学习机器学习中的数学

数学达到什么水平才可以开始机器学习?人们并不清楚,尤其是那些在校期间没有研究过数学或统计学的人。

721
来自专栏算法channel

一文梳理NLP之机器翻译和自动摘要的发展现状

2 NLP入门:CNN,RNN应用文本分类,个性化搜索,苹果和乔布斯关系抽取(2)

7142
来自专栏ATYUN订阅号

DeepMind研究:测试神经网络的抽象推理

机器能学会抽象推理吗?这是谷歌子公司DeepMind发表的一篇新论文的主题,题为“Measuring abstract reasoning in neural ...

1274
来自专栏AI科技大本营的专栏

资源 | 机器学习十大热文新鲜出炉,这个月你该读哪篇?

翻译 | 林椿眄 编辑 | SuiSui 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:《2018年2月机器学习10大热文精选》 ,...

3414
来自专栏新智元

国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求

作者:王中风 【新智元导读】 基于神经网络的深度学习算法已经在计算机视觉、自然语言处理等领域大放异彩。但是,诸如 VGG、ResNet 和 Xception 等...

4536
来自专栏AI科技评论

深度 | BAIR论文:通过“元学习”和“一次性学习”算法,让机器人快速掌握新技能

AI科技评论按:近日伯克利大学人工智能实验室(BAIR)Sergey Levine团队在Arxiv上发布了一篇名为《One-Shot Visual Imitat...

40210
来自专栏数据科学与人工智能

【深度学习】深度学习未来十大趋势

神经网络框架变得越来越复杂而精密 在感知、语言翻译等等方面的大部分最先进的神经网络框架正在发展并且不在仅仅关于简单前馈式(feed forward)框架或者卷积...

3699
来自专栏AI科技评论

腾讯AI Lab两大算法刷新人脸识别与检测纪录,秉承「基础研究+落地应用」之路

AI 科技评论按:12 月 18 日,腾讯 AI Lab 宣布,其研发的人脸算法 Face R-FCN 和 Face CNN 分别在人脸检测平台 WIDER F...

3179
来自专栏机器之心

百度NLP | Familia:开源的中文主题模型应用工具包

4526

扫码关注云+社区

领取腾讯云代金券