DeepMind 发布新架构:让AI 边玩游戏边强化学习

本文出自:雷锋网(leiphone-sz)

论文标题:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

视频内容

众所周知,强化学习是一种算法,我们可以用它在环境中选择一系列的行动来达到最高分数。这种算法有很多种应用,在这里我们单独拿电子游戏出来做例子,是因为它能够呈现给玩家多种多样的挑战。

DeepMind 实验室为了更加直观地进行研究,使用第一视角来玩3D游戏。DeepMind实验室有一个简单却很灵活的API,可以让训练对象学习不同的任务,该实验室的游戏引擎功能强大,运行速度飞快,适用各种研究场景。

在强化学习过程中,我们通常有一个任务目标(比如学习后空翻)和一个我们想要训练好的对象。

在本篇论文中,我将介绍的这个项目,是DeepMind对于改进强化学习的一次尝试。通过训练,使一个对象能完成比以往多得多种类的任务,这显然意味着我们需要获得更多的训练数据‍,以及为最高效地处理这些数据作好准备。

这个新技术是基于之前DeepMind发布了的构架,先前的构架 A3C(即异步的优势行动者评论家算法) 将一些执行单元置于游戏中,每个单元都掌握玩这个游戏当前的策略。之后,这些单元独立地进行游戏,并周期性地停止游戏,以此来分享关于当前策略的可行部分和不可行的部分。

这种IMPALA架构(Importance Weighted Actor-Learner Architecture)有两个关键性的改变——

(1)第一个是在中间有个学习单元,执行单元不与它分享游戏中哪些做法可行,哪些不可行,而是它们与它分享经验。之后,这个集中的学习单元会想出一个关于所有这些数据的合理结论。想象一下,如果一个队伍里的每个足球运动员都去告诉教练,自己在球场上尝试的哪些方法奏效,这样的确可以有作用,但是有别于只是得到这些方法,我们可以把每个队员各自的经验通过蜂群思想结合起来,然后可以得到更多更高质量的信息。

(2)另一个关键性不同是,传统强化学习会先将游戏进行一定步骤,然后停下来进行学习过程。而使用论文中的方法,我们将游戏进行和学习过程分离开来,因此就有可能发展出一种能够同时连续进行两个过程的算法。这也引发了新的问题,推荐看一下论文里特别是关于叫做V-Trace的新的off-policy校正方法的部分,当在30个不同等级和大量Atari游戏的测试中,这种新方法比起之前基于A3C架构的表现翻了一倍,这也是极好的。同时,数据使用效率也至少是十倍于后者。它产生的知识更容易被应用到其他任务中。

论文原址 : https://arxiv.org/pdf/1802.01561.pdf


原文发布于微信公众号 - 奇点(qddata)

原文发表时间:2018-04-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

孔晓泉:自然语言处理应用和前沿技术回顾

雷锋网 AI 研习社按:伴随着近几年的机器学习的热潮,自然语言处理成为了目前炙手可热的研究方向,同时也是 Google、Microsoft、Facebook、B...

1001
来自专栏数据的力量

用户增长分析系列:用户流失预警

针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户...

2473
来自专栏机器之心

专栏|阿里妈妈资深技术专家刘凯鹏解读基于深度学习的智能搜索营销

机器之心专栏 作者:刘凯鹏 本文结合阿里电商业务场景的特点,介绍了阿里在匹配端和排序端的基于深度学习的一些工作。 搜索营销(sponsored search)是...

4245
来自专栏企鹅号快讯

第一篇:模仿游戏

有一部科幻电影叫《超体》,主题是人类一直以来的一个传说,“人类目前只开发了大脑10%的潜能。如果大脑潜能被进一步开发,那么人类将拥有更强的能力。”具体有哪些能力...

2056
来自专栏AI科技评论

干货 | 猿桌会 56 期 - 葛笑雨:应用于智能体的空间物理定性推理技术

近年来人工智能技术突飞猛进,越来越多的机器人正在走进我们的世界。与人类一样,机器人在执行日常任务时往往需要具备一定的空间物理推理能力。具备这种能力不仅使机器人可...

1372
来自专栏AI科技评论

学界|盘点四大民间机器学习开源框架:Theano、Caffe、Torch 和 SciKit-learn

在上期的《谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了》这篇文章里,我们盘点了 TensorFlow,CNTK,SystemML,DeepM...

44712
来自专栏CDA数据分析师

机器学习领域的突破性进展(附视频中字)

机器学习的发展涉及到各个方面,从语音识别到智能回复。但这些系统中的“智能”实际上是如何工作的呢?还存在什么主要挑战?在本次讲座中将一一解答。 Google I/...

19610
来自专栏人工智能

建立属于你的智能客服

本文首发于GitChat,原作者王晓雷,经作者同意授权转发。转载请联系作者或GitChat。 背景 很多人问,对话式交互系统就是语音交互么?当然不是。语音交互本...

2887
来自专栏机器人网

写给非技术人员的机器学习指南

  作者:Kannan Chandrasegaran   这里是另一家创业公司的聚会,你靠在吧台上,一边喝着小酒。这样的夜晚你只考虑自己,尽情享受社交活动。  ...

3638
来自专栏AI科技评论

腾讯知文团队负责人钟黎:从 0 到1 打造下一代智能对话引擎 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,由雷锋网、香港中文大学(深圳)承办,得到...

1753

扫码关注云+社区

领取腾讯云代金券