学界 | DeepMind新论文提出神经情景控制：可显著提速深度强化学习

机器之心

发布于 2018-05-07 10:36:38

4190

发布于 2018-05-07 10:36:38

文章被收录于专栏：机器之心

选自arXiv

机器之心编译

参与：吴攀

DeepMind 近日在 arXiv 上发布了一篇新论文介绍了一种名叫「神经情景控制（Neural Episodic Control）」的新方法。DeepMind 创始人兼 CEO Demis Hassabis 也是该论文的作者之一。机器之心对该论文进行了摘要介绍，论文原文可点击文末「阅读原文」查看。

深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的，要想实现合理程度的表现，所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制（Neural Episodic Control/NEC）：一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示（semi-tabular representation）：一种过去经验的缓冲器，其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛环境中的研究表明：我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

神经情景控制（Neural Episodic Control）

我们的代理由三个组分构成：一个处理像素图像的卷积神经网络，一个记忆模块集合（每个动作一个模块）和一个将动作记忆的读出转换成 Q(s, a) 值的最终的网络。这里的卷积神经网络使用了和 DQN (Mnih et al., 2015) 所使用的一样的架构。