开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >算法集锦（26）| DeepMind单智能体精通57款小游戏 | 多任务DRL

算法集锦（26）| DeepMind单智能体精通57款小游戏 | 多任务DRL

用户7623498

发布于 2020-08-04 17:01:06

发布于 2020-08-04 17:01:06

7160

举报

文章被收录于专栏：决策智能与机器学习决策智能与机器学习

0.内容提要

DeepMind团队提出一种多任务深度强化学习方法PopArt，实现了单智能体同时学习57款不同的雅达利游戏的平均表现首次超过人类平均水平，达到目前技术的顶级水平。该方法对于单智能体需要在现实中复杂的多任务领域平衡不同学习目标的奖励策略提供了途径。简单说就是一个智能体可以同时干好多个任务的通用能力。

全文PDF下载，请在关注公众号并回复：20180920

1.模型原理

该方法原理上是针对了智能体在不同任务的强化学习时，奖励的规模不同会造成智能体的性能出现很大差别。比如在pong游戏中，智能体每一步的奖励为-1，0或1。但是在Ms. Pac-Man中每一步可以得到成百上千的奖励。这就会造成智能体对不同任务学习能力的不均衡。

这里提出了一种PopArt规范化方法，将其用于基于值的强化学习中，可以将不同任务的奖励调整为相同规模，从而避免了不均衡奖励的问题，使得同一个智能体在不同任务上的平均表现达到了顶级性能水平。

PopArt规范化的主要更新调整算法如下，详细说明参见全文，下载方式见文章开头。

值函数规范化调整

参数规范化调整

2.仿真试验

DeepMind分别在Atari-57和DmLab-30这两个具有挑战性的多任务基准上评估了该方法，这两个基准分别基于Atari和DeepMind实验室提出。在所有的基准上我们的方法都表现出了顶级的性能水平。

为了汇总多任务的得分，我们将每个任务的得分标准化，基于人类玩家和同一任务的随机智能体的得分。所有实验都使用基于人群的训练(PBT)来调整超参数。

3.性能验证

新方法PopArt与DeepMind之前提出的IMPALA方法相比，性能水平显著提高。而且该中值性能已经超过了人类的中值水平。

上图是不同方法在57款雅达利游戏的标准化性能中值。该智能体使用相同的神经网络来玩所有这些游戏，每条线代表一个智能体的中值性能。实线表示使用“裁剪奖励”的地方。虚线表示使用了“未裁剪的奖励”。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-09-21，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自决策智能与机器学习微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新