前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌推出全新强化学习智能体,1秒处理240万帧大幅超越IMPALA

谷歌推出全新强化学习智能体,1秒处理240万帧大幅超越IMPALA

作者头像
新智元
发布2020-04-01 16:38:57
4400
发布2020-04-01 16:38:57
举报
文章被收录于专栏:新智元新智元
新智元报道

编辑:元子,啸林

【新智元导读】当前的RL技术需要越来越多的训练才能成功学习简单的游戏,这使得迭代研究和产品构想在计算上既昂贵又耗时。近期,一个Google团队提出了一种被称为SEED(可扩展、高效Deep-RL)的现代可扩展强化学习智能体,可扩展到数千台机器,能够以每秒数百万帧的速度进行训练,并显着提高了计算效率。

DeepMind的强化学习研究小组领导人,AlphaGo、AlphaZero的首席研究员及AlphaStar的联合负责人David Silver教授曾经介绍过强化学习的是原则,其中No. 2就是可伸缩性,并认为“算法的可扩展性最终决定了它的成功与否”。从这个角度上看,SEED作为一个在真正大规模架构上的可扩展Deep-RL框架,无疑是RL领域的重要贡献。

SEED火力全开,成本直降80%每秒处理240万帧

传统的可伸缩强化学习框架,比如IMPALA和R2D2,并行运行多个智能体来收集转换,每个智能体都有来自参数服务器(或learner)的自己模型的副本。

这种体系结构需要传输模型参数,以及环境信息,对带宽要求非常高,从而导致成本高昂。Google Brain团队的Espeholt、Marinier及Stanczyk等人提出了一种叫做SEED (Scalable Efficient Deep-RL)的强化学习智能体,具有超强的可伸缩性,能够利用现代加速器来加速数据收集和学习过程,和IMPALA相比,运行成本直接降了80%!

训练AI玩游戏时,SEED RL的处理速度可高达240万帧/秒。让我们以60fps帧数计算,相当一秒处理11小时游戏画面。

传统架构的缺陷

为了便于说明,这里主要和大家已经比较熟悉的IMPALA比较。

IMPALA利用专门用于数值计算的加速器,充分利用了(无)监督学习多年来受益的速度和效率。其体系结构通常分为Actor和learner。Actor通常在CPU上运行,并且在环境中采取的步骤与对模型进行推断之间进行迭代,以预测下一个动作。

通常,Actor会更新推理模型的参数,并且在收集到足够数量的观察结果之后,会将观察结果和动作的轨迹发送给learner,从而对learner进行优化。在这种架构中,learner使用来自数百台机器上的分布式推理的输入在GPU上训练模型。

但IMPALA存在着许多缺点:

1、使用CPU进行神经网络推理,效率低下。而且随着模型变大、运算量变大,问题会越来越严重。2、Actor和Learner之间模型参数的带宽成为性能的瓶颈。3、资源利用效率低,Actor在环境和推理两个任务之间交替进行,而这两个任务的计算要求不同,很难在同一台机器上充分利用资源。

SEED RL具有哪些优势?

SEED RL体系架构解决了以上这些缺点。Actor可以在GPU、TPU这类AI硬件加速器上完成推理,通过确保将模型参数和状态保持在本地来加快推理速度,并避免数据传输瓶颈。与IMPALA体系结构相反,SEED RL中的Actor仅在环境中执行操作。Learner在硬件加速器上使用来自多个Actor的成批数据来集中执行推理。

通过两种最先进的算法V-trace和R2D2,Learner可以扩展到几千个核心上,Actor的数量可以扩展到几千台机器,从而实现每秒百万帧的训练速度。

看一下实验效果:

同行评审

在ICLR 2020的Official Blind Review #5给了8分。评审认为本文提出了一个在真正大规模架构上的可扩展Deep-RL框架,该框架解决了在许多Actor和Learner都在运行的情况下对此类系统进行多机培训的一些问题,介绍了IMPALA上的大规模实验和改进,从而获得了新的SOTA结果。终审认为这个架构对整个RL社区做出了重要贡献。

  1. 工程可靠:从工程角度来看,这项工作是可靠的。它有效地解决了现有体系结构中的问题,随附的源代码清晰且结构良好。
  2. 显著提速:在从ALE到DeepMindLab和GoogleResearch Football的各种基准测试中,文章提出的架构均显示出良好的性能,显示了良好的可伸缩性,并且显着减少了培训时间。
  3. 体系架构更改合理:从IMPALA到SEED的体系结构更改是合理的,并且结果以积极的方式支持了这些选择。与IMPALA(最新的分布式RL框架)中的分布式方法相比,该方法可重构Actor(环境)和Learner之间的接口/功能划分。最重要的是,该模型虽然在IMPALA中分配,它仅在SEED中的Learner中。提议的框架特别适合于训练大型模型,因为模型参数不会在Actor和Learner之间传递。
  4. 开源代码:SEED的代码是开源的,支持将来基于SEED的扩展性研究。
  5. 更便宜:作者由估算表明,他们提出的框架在云平台上运行更便宜。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SEED火力全开,成本直降80%每秒处理240万帧
  • 传统架构的缺陷
  • SEED RL具有哪些优势?
  • 同行评审
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档