前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >视频 | DeepMind发布新架构,让AI边玩游戏边强化学习

视频 | DeepMind发布新架构,让AI边玩游戏边强化学习

作者头像
AI科技评论
发布2018-07-27 10:17:18
3190
发布2018-07-27 10:17:18
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

原标题:DeepMind's AI Masters Even More Atari Games

翻译 | 熊逸凡 字幕 | 凡江

论文标题:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

视频内容

众所周知,强化学习是一种算法,我们可以用它在环境中选择一系列的行动来达到最高分数。这种算法有很多种应用,在这里我们单独拿电子游戏出来做例子,是因为它能够呈现给玩家多种多样的挑战。DeepMind 实验室为了更加直观地进行研究,使用第一视角来玩 3D 游戏。DeepMind实验室有一个简单却很灵活的 API,可以让训练对象学习不同的任务,该实验室的游戏引擎功能强大,运行速度飞快,适用各种研究场景。

在强化学习过程中,我们通常有一个任务目标(比如学习后空翻)和一个我们想要训练好的对象。在本篇论文中,我将介绍的这个项目,是 DeepMind 对于改进强化学习的一次尝试。通过训练,使一个对象能完成比以往多得多种类的任务,这显然意味着我们需要获得更多的训练数据‍,以及为最高效地处理这些数据作好准备。

这个新技术是基于之前 DeepMind 发布了的构架,先前的构架 A3C(即异步的优势行动者评论家算法) 将一些执行单元置于游戏中,每个单元都掌握玩这个游戏当前的策略。之后,这些单元独立地进行游戏,并周期性地停止游戏,以此来分享关于当前策略的可行部分和不可行的部分。

这种 IMPALA 架构(Importance Weighted Actor-Learner Architecture)有两个关键性的改变——

1.第一个是在中间有个学习单元,执行单元不与它分享游戏中哪些做法可行,哪些不可行,而是它们与它分享经验。之后,这个集中的学习单元会想出一个关于所有这些数据的合理结论。想象一下,如果一个队伍里的每个足球运动员都去告诉教练,自己在球场上尝试的哪些方法奏效,这样的确可以有作用,但是有别于只是得到这些方法,我们可以把每个队员各自的经验通过蜂群思想结合起来,然后可以得到更多更高质量的信息。

2.另一个关键性不同是,传统强化学习会先将游戏进行一定步骤,然后停下来进行学习过程。而使用论文中的方法,我们将游戏进行和学习过程分离开来,因此就有可能发展出一种能够同时连续进行两个过程的算法。这也引发了新的问题,推荐看一下论文里特别是关于叫做 V-Trace 的新的 off-policy 校正方法的部分,当在 30 个不同等级和大量 Atari 游戏的测试中,这种新方法比起之前基于 A3C 架构的表现翻了一倍,这也是极好的。同时,数据使用效率也至少是十倍于后者。它产生的知识更容易被应用到其他任务中。

论文原址: https://arxiv.org/pdf/1802.01561.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档