前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | DeepMind新论文提出神经情景控制:可显著提速深度强化学习

学界 | DeepMind新论文提出神经情景控制:可显著提速深度强化学习

作者头像
机器之心
发布2018-05-07 10:36:38
4140
发布2018-05-07 10:36:38
举报
文章被收录于专栏:机器之心

选自arXiv

机器之心编译

参与:吴攀

DeepMind 近日在 arXiv 上发布了一篇新论文介绍了一种名叫「神经情景控制(Neural Episodic Control)」的新方法。DeepMind 创始人兼 CEO Demis Hassabis 也是该论文的作者之一。机器之心对该论文进行了摘要介绍,论文原文可点击文末「阅读原文」查看。

深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的,要想实现合理程度的表现,所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制(Neural Episodic Control/NEC):一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示(semi-tabular representation):一种过去经验的缓冲器,其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛环境中的研究表明:我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

神经情景控制(Neural Episodic Control)

我们的代理由三个组分构成:一个处理像素图像的卷积神经网络,一个记忆模块集合(每个动作一个模块)和一个将动作记忆的读出转换成 Q(s, a) 值的最终的网络。这里的卷积神经网络使用了和 DQN (Mnih et al., 2015) 所使用的一样的架构。

算法 1:神经情景控制(Neural Episodic Control)

图 1:在一个可微分神经词典(Differentiable Neural Dictionary)上的操作的图示

图 2:对单个动作 a 的情景记忆模块(episodic memory module)的架构。表示当前状态的像素进入通过左下方的一个卷积神经网络,然后在右上方输出 Q(s, a) 的一个估计。梯度会流过这整个架构。

图 3~图 8:不同算法在不同游戏上的学习曲线,上图为不同算法在 Ms. Pac-Man 上的学习曲线

图 10:人类标准化的游戏分数,按算法独立排序,y 轴上表示的分位数(quantiles)

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档