DeepMind 新算法NEC：让 AI 在学习速度上超越人类

新智元

发布于 2018-03-27 16:16:06

8460

发布于 2018-03-27 16:16:06

文章被收录于专栏：新智元

【新智元导读】 DeepMind 研究团队的新论文Neural Episodic Control提出了一种称为NEC的新算法，使得“更广泛环境下的学习速度大幅度提高”。他们的智能体能够在获得经验后丰富快速锁定到最成功的策略上，而不是等待许多优化步骤。这个AI可以更快地理解新的经验，并以此为依据采取行动，这将使它能够更快地达到人类学习的速度。

拥有了学习能力的机器似乎已经完胜人类，尤其是在进行面部识别、视频游戏或者下围棋时。

但且慢，有一个关键领域智能机器还被人类甩在身后：学习速度。比如说，在掌握一些经典视频游戏的玩法时，人类花2小时就能学会，而机器要学习200个小时。

现在，人类学习的速度比深度学习机器快10倍。正是这样的“优越性”使得“AI战胜人类”暂且只是担忧。但是，多亏谷歌（或者都怪谷歌？），这个现状即将改变。

据位于伦敦的谷歌子公司 DeepMind 的 Alexander Pritzel 介绍，他们已经制造深度学习机器，这个AI可以更快地理解新的经验，并以此为依据采取行动，这将使它能够更快地达到人类学习的速度。

NEC算法改变了什么

深度学习通过使用神经网络层来识别数据中的模式和趋势。当一层侦测到一个模式时，它会将该信息发送到下一层，然后再发送到下下层。随着数据持续传递，所有层都知道了这一信息。

例如在面部识别中，一层可能找寻图像中的边，下一层则找出这些边的环形模式（如眼睛和嘴的轮廓），再下一层负责三角模式（如双眼和嘴构成的图形）。所有这些之后，最终输出面部的识别结果。

通过修改或调整内部因素，例如层之间的连接强度，系统学习的方式就会不同。然而，变化必须缓慢地引入，因为一层的剧烈变化对所有后续层都会产生同样的影响。这基本上就是为什么深度神经网络学习和训练的时间更长。

Pritzel 声称他们已经找到了这个问题的解决方案——他们称之为“神经情景控制”（neural episodic control）。他们表示，使用这种技术已经使得“更广泛环境下的学习速度大幅度提高”，因为他们的智能体能够在获得经验后丰富快速锁定到最成功的策略上，而不是等待许多优化步骤。

NEC算法简述

在DeepMind研究团队 3月6日提交到 arXiv 的论文《Neural Episodic Control》中指出，NeuralEpisodic Control（NEC）是一种深度强化学习智能体，可以快速吸收经验并以此为依据采取行动。该智能体使用价值函数的 semi-tabular 表征：一种过去经验的缓冲，包含了表征的缓慢变化状态和价值函数的快速更新评价。该智能体包含了三个组成部分：一个处理像素图像的卷积神经网络，一组记忆模块（每个行动一个），一个将从行动记忆中读取的信息转化为Q(s, a) 值的最终网络。

对于每个行动