学界 | DeepMind新论文提出神经情景控制:可显著提速深度强化学习

选自arXiv

机器之心编译

参与:吴攀

DeepMind 近日在 arXiv 上发布了一篇新论文介绍了一种名叫「神经情景控制(Neural Episodic Control)」的新方法。DeepMind 创始人兼 CEO Demis Hassabis 也是该论文的作者之一。机器之心对该论文进行了摘要介绍,论文原文可点击文末「阅读原文」查看。

深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的,要想实现合理程度的表现,所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制(Neural Episodic Control/NEC):一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示(semi-tabular representation):一种过去经验的缓冲器,其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛环境中的研究表明:我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

神经情景控制(Neural Episodic Control)

我们的代理由三个组分构成:一个处理像素图像的卷积神经网络,一个记忆模块集合(每个动作一个模块)和一个将动作记忆的读出转换成 Q(s, a) 值的最终的网络。这里的卷积神经网络使用了和 DQN (Mnih et al., 2015) 所使用的一样的架构。

算法 1:神经情景控制(Neural Episodic Control)

图 1:在一个可微分神经词典(Differentiable Neural Dictionary)上的操作的图示

图 2:对单个动作 a 的情景记忆模块(episodic memory module)的架构。表示当前状态的像素进入通过左下方的一个卷积神经网络,然后在右上方输出 Q(s, a) 的一个估计。梯度会流过这整个架构。

图 3~图 8:不同算法在不同游戏上的学习曲线,上图为不同算法在 Ms. Pac-Man 上的学习曲线

图 10:人类标准化的游戏分数,按算法独立排序,y 轴上表示的分位数(quantiles)

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

NLP通用模型诞生?一个模型搞定十大自然语言常见任务

1352
来自专栏ATYUN订阅号

【行业】使用深度学习来简化科学图像分析

AiTechYun 编辑:nanan ? 组装高质量的图像数据集 该显微镜主要用于成像应用程序,来分析每天TB数据。这些应用程序可以通过计算机视觉和深度学...

2854
来自专栏新智元

深度学习应用系统分析:应用组合和形态矩阵找到正确路径

【新智元导读】本文收录了arXiv.org上关于深度学习的一些最新的研究论文,列出了这些文章的内容,包括“深度学习八大灵感应用”、“深度学习用例”、“科学与工程...

43410
来自专栏机器之心

业界 | 百度开源新一代深度学习硬件测试工具:覆盖Titan Xp到iPhone7

选自Baidu Research 机器之心编译 今天,百度研究院开源了新一代 DeepBench,一款深度学习基准测试工具,这次升级加入了推理测量等功能。 1....

3678
来自专栏机器之心

深度 | 苹果博客解读iPhone上的人脸识别深度神经网络

39110
来自专栏机器之心

教程 | 如何为时间序列数据优化K-均值聚类速度?

35110
来自专栏AI研习社

博客 | 如期而至!谷歌开源 BERT 模型源代码

雷锋网 AI 科技评论按:自上个月谷歌公开 BERT 模型以来,BERT 模型以其双向、深层等特点,成功在 11 项 NLP 任务中取得 state of th...

1473
来自专栏机器之心

学界 | 谷歌大脑提出MAPO:用于程序合成的策略优化方法

该框架可用于从弱监督 (如问答对) 中学习语义解析和程序合成,这比全监督 (如问答对) 更容易收集,也更灵活。应用程序包括虚拟助手、数据库的自然语言接口、人机交...

1053
来自专栏人工智能头条

史上最全TensorFlow学习资源汇总

1.8K5
来自专栏李春晓的专栏

机器学习:从入门到第一个模型

从入门到第一个模型”差点就成了“从入门到放弃”。本文是机器学习在运维场景下的一次尝试,用一个模型实现了业务规律挖掘和异常检测。这只是一次尝试,能否上线运转还有待...

2.5K2

扫码关注云+社区

领取腾讯云代金券