专栏首页机器之心学界 | DeepMind新论文提出神经情景控制:可显著提速深度强化学习

学界 | DeepMind新论文提出神经情景控制:可显著提速深度强化学习

选自arXiv

机器之心编译

参与:吴攀

DeepMind 近日在 arXiv 上发布了一篇新论文介绍了一种名叫「神经情景控制(Neural Episodic Control)」的新方法。DeepMind 创始人兼 CEO Demis Hassabis 也是该论文的作者之一。机器之心对该论文进行了摘要介绍,论文原文可点击文末「阅读原文」查看。

深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的,要想实现合理程度的表现,所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制(Neural Episodic Control/NEC):一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示(semi-tabular representation):一种过去经验的缓冲器,其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛环境中的研究表明:我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

神经情景控制(Neural Episodic Control)

我们的代理由三个组分构成:一个处理像素图像的卷积神经网络,一个记忆模块集合(每个动作一个模块)和一个将动作记忆的读出转换成 Q(s, a) 值的最终的网络。这里的卷积神经网络使用了和 DQN (Mnih et al., 2015) 所使用的一样的架构。

算法 1:神经情景控制(Neural Episodic Control)

图 1:在一个可微分神经词典(Differentiable Neural Dictionary)上的操作的图示

图 2:对单个动作 a 的情景记忆模块(episodic memory module)的架构。表示当前状态的像素进入通过左下方的一个卷积神经网络,然后在右上方输出 Q(s, a) 的一个估计。梯度会流过这整个架构。

图 3~图 8:不同算法在不同游戏上的学习曲线,上图为不同算法在 Ms. Pac-Man 上的学习曲线

图 10:人类标准化的游戏分数,按算法独立排序,y 轴上表示的分位数(quantiles)

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | DeepMind提出空间语言集成模型SLIM,有效编码自然语言的空间关系

    论文:Encoding Spatial Relations from Natural Language

    机器之心
  • 谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统

    选自谷歌 机器之心编译 参与:机器之心编辑部 近日,谷歌官方在 Github 开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模...

    机器之心
  • 5种高效利用value-counts函数的方法,一键提升数据挖掘姿势水平

    value_counts() 方法返回一个序列 Series,该序列包含每个值的数量。也就是说,对于数据框中的任何列,value-counts () 方法会返回...

    机器之心
  • BVS智能视频分析-智慧工地安全生产管理

    智能视频分析技术其本身是一项信息技术,为建筑施工质量安全管理提供了先进技术手段,通过安装在建筑施工作业现场的各类监控装置,构建智能监控和防范体系,就能有效弥补传...

    用户2217864
  • R.python常见问题②(一些需要编译的包)

    在R语言的广泛包中,大部分可以直接install.packages()直接命令安装,但是有些包安装过程比较复杂,例如'lightgbm,ggplot2所依赖的‘...

    用户1359560
  • 一次Maven依赖冲突采坑,把依赖调解、类加载彻底整明白了

    今年年初的时候,阅读过《Maven实战》,当时有了解到Maven可以依赖调解,即当包版本不一致时,会根据一定规则选择相应的包来加载,从而避免冲突。当时不解的是既...

    草捏子
  • Web页面制作基础

    <pre class="public-DraftStyleDefault-pre" data-offset-key="bmavb-0-0" style="mar...

    达达前端
  • 数据分析方法论-统计学内容学习

    最初学习数据分析只是出于兴趣,自学了Python。最近才生出转行数据分析的想法,目前已经辞职,准备全身心地投入到学习中。

    带萝卜
  • scanpy分析单细胞数据

    scanpy和seurat是最常用的分析的单细胞的工具,seurat基于R,而scanpy基于python。 linux下用pip安装scanpy

    生信编程日常
  • [编程经验] 我是如何半自动抓取素材公社图片的

    网络爬虫是一件比较繁琐的事情,特别考验人的耐心。但又是非常令人着迷的一件事,因为当你从网络上爬到了自己的想要的数据,满满的成就感油然而生。但是我对爬虫掌握的并不...

    用户1622570

扫码关注云+社区

领取腾讯云代金券