前沿 | DeepMind提出新型架构IMPALA:帮助实现单智能体的多任务强化学习

选自DeepMind

作者:Hubert Soyer、Drew Purves、Lasse Espeholt

机器之心编译

参与:路雪、李泽南

深度强化学习(DeepRL)在很多任务中取得了成功,从机器人的连续控制问题到围棋、Atari 等游戏。不过这些领域中的进步还限制在单个任务,即在单个任务中对智能体进行调整和训练。DeepMind 最近提出的 IMPALA 开始尝试利用单智能体同时处理多个任务,其架构性能超越此前方法数倍,具有强大的可扩展性,同时也展示了积极的迁移性质。与新架构同时提出的还有任务集合 DMLab-30。

  • 项目 GitHub:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

DeepMind 近期的研究尝试探索在多个任务上训练单个智能体。

今天,DeepMind 发布了新的任务集合 DMLab-30,其包含公共动作空间的视觉统一环境中的多种挑战性任务。想训练在多个任务中表现良好的智能体,我们需要高吞吐量和高效利用每个数据点的算法架构。因此,DeepMind 开发了一种可用于分布式训练的具备高扩展性的新型智能体架构 IMPALA(Importances Weighted Actor-Learner Architectures),该架构使用一种新型离策略修正算法 V-trace。

DMLab-30

DMLab-30 是使用 DeepMind 的开源强化学习环境 DeepMind Lab 设计出的新型任务集合。任意 DeepRL 研究者都可以使用这些环境在大量有趣的任务或多任务设置中测试系统。

设计者使这些任务尽可能多样化。它们具备不同的目标,从学习、记忆到导航等等。从视觉上来看它们也是不同的——从亮度、现代风格的纹理,从绿到浅棕色等等。它们包括不同的物理设置,从开放的多山地带到直角迷宫,再到开放的圆形房间。

此外,一些环境包括「bots」,可以执行内部的目标导向动作。同样重要的是,不同级别的任务目标和奖励也不同,从遵循语言命令、使用钥匙开门、采蘑菇,到绘画、沿着一条复杂、不可逆的路径行走。

但是,从动作和观察空间来看,这些环境基本上是一样的,允许单个智能体在该高度变化的任务集合的每一个环境中进行训练。关于环境的更多细节,详见:https://github.com/deepmind/lab。

IMPALA:Importance-Weighted Actor-Learner Architectures

为了解决智能体在 DMLab-30 中进行训练的问题,DeepMind 开发了一种新型分布式智能体 IMPALA,它利用高效的 TensorFlow 分布式架构最大化数据吞吐量。

IMPALA 受流行的 A3C 架构的启发,A3C 架构使用多个分布式 actor 来学习智能体的参数。在此类模型中,每个 actor 使用策略参数在环境中动作。actor 周期性地暂停探索,和中央参数服务器共享它们计算出的梯度,用于梯度更新(见下图)。

IMPALA 的 actor 不用于计算梯度,而是用于收集经验,然后传输至可计算梯度的中央学习器,生成一个具备完全独立的 actor 和 learner 的模型。为了利用现代计算系统,IMPALA 可使用单个学习器或执行同步更新的多个学习器来实现。用这种方式分离学习和动作可以有效地提高整个系统的吞吐量,因为 actor 不再需要等待学习步(像 batched A2C 架构中那样)。这使得我们可以在多个有趣的环境中训练 IMPALA,无需经历帧渲染时间的变动或耗时的任务重启。

与其他需要在每个学习步骤上暂停的架构不同,IMPALA 是持续学习的

但是,决策与学习的分离会导致 actor 中的策略落后于学习器。为了弥补这一差异,DeepMind 引入了一种原则性离策略优势 actor critic 算法——V-trace,它通过 actor 的离策略弥补了轨迹。关于 V-trace 的具体细节可参考论文《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》(见文末)。

由于 IMPALA 的优化模型相对于类似智能体而言,可以处理一到两个数量级的更多经验,让复杂环境中的学习变为可能。DeepMind 比较了 IMPALA 与几种流行的 actor-critic 方法,发现新方法的速度有显著提高。此外,使用 IMPALA 的吞吐量增长与 actor 和 learner 的增加呈线性关系,这意味着分布式智能体模型和 V-trace 算法可以处理大规模实验,上千台机器都没有问题。

在 DMLab-30 的测试中,IMPALA 处理数据的效率是分布式 A3C 的 10 倍,最终得分是后者的 2 倍。另外,IMPALA 在多任务设置的训练中,相比单任务训练还展示了正向迁移的性质。

论文:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

论文链接:https://arxiv.org/abs/1802.01561

摘要:在本研究中,我们专注于使用单一强化学习智能体与单一参数集解决大型任务集合的问题。在这样的条件下,最主要的挑战是处理越来越大的数据量和不断增加的训练时间——这在单一任务学习中已经是一个挑战。我们开发了一种新的分布式智能体 IMPALA(Importance-Weighted Actor Learner Architecture),它可以扩展到数千台机器上,每秒吞吐量高达 25 万帧。我们通过结合决策和学习分离与新型离策略修正方法 V-trace,达到了很高的吞吐量,实现了稳定学习,这对于学习的稳定性至关重要。我们展示了 IMPALA 在 DMLab-30(DeepMind Lab 环境中一组 30 个任务的集合)和 Atari-57(Arcade Learning Environment 中所有可用的 Atari 游戏)中进行多任务强化学习的有效性。我们的结果展示了 IMPALA 的性能优于之前的智能体,使用的数据更少,更重要的是新方法可以在多任务中展现出积极的迁移性质。

原文链接:https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-02-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

干货 | 中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究

AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维...

3124
来自专栏AI科技评论

不一样的论文解读:2018 KDD best paper「Embeddings at Airbnb」

Airbnb 的 Real-time Personalization using Embeddings for Search Ranking at Airbnb...

1302
来自专栏人工智能头条

如何将深度学习与你正在做的事情相结合?

1922
来自专栏AI研习社

这 25 个开源机器学习项目,一般人我不告诉 Ta

在过去几年中,机器学习开辟了很多新的领域,出现了很多高级应用案例:Facebook的脸部识别、Netflix的电影推荐、PrimaAI的图像风格转移、Siri的...

792
来自专栏PPV课数据科学社区

【推荐】飞林沙:商品推荐算法&推荐解释

这是今天看到的一篇蛮有新意的讲稿,由于不是一篇完整的论文,所以理解起来稍微有些困难,就顺着写个笔记,仅供参考。 Ref: http://www.wsdm-con...

2995
来自专栏机器之心

前沿 | BAIR提出人机合作新范式:教你如何高效安全地在月球着陆

选自BAIR 作者:Siddharth Reddy 机器之心编译 参与:Pedro、刘晓坤 人机合作可以提高很多现实高危任务的成功率和安全性,特别是对于视野受限...

2676
来自专栏CVer

免费资源 | 机器学习 新手快速入门

昨天正式开启了CVer免费赠书:送7本实体书(包邮) 活动,其中、有 4种赠书方式,Amusi也觉得赠的书不多,反而赠书方式多了,甚至觉得自己往营销方面跑了。因...

2042
来自专栏养码场

最适合练手30个的机器学习开源项目,赶紧收藏!

“ 场主,这篇文章炒鸡棒!内涵许多实战项目,很适合机器学习刚入门的小伙伴磨练来提升自己的技术水平。这些优质的开源项目都来自于GitHub上,排名十分靠前,反正很...

901
来自专栏ATYUN订阅号

OpenAI发布8个模拟机器人环境以及一种HER实现,以训练实体机器人模型

OpenAI:我们将发布8个模拟的机器人环境,以及一种叫做“事后经验回顾”(Hindsight Experience Replay,简称HER)的一种Basel...

43612
来自专栏专知

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【导读】专知内容组整理了最近六篇用户建模相关文章,为大家进行介绍,欢迎查看! 1. User Profiling through Deep Multimodal...

7606

扫码关注云+社区