Hassabis 论文：为智能体设计“不需要模型的情景控制系统”

新智元

发布于 2018-03-23 10:39:56

6900

发布于 2018-03-23 10:39:56

文章被收录于专栏：新智元

【新智元导读】谷歌 DeepMind 创始人 Demis Hassabis 等人近日发表论文，延续其拓展的辅助学习系统理论，为智能体设计了一个“不需要模型的情景控制器”，深度强化学习算法在配备上这样的系统之后，在更短的时间内，玩游戏就能达到人类水平。此前 Hassabis 等人认为，哺乳动物学习需要两个系统：一个缓慢学习结构化知识，一个快速存取信息，这些快速存取的信息能够回放，最终整合进入第一个系统。这次，DeepMind 团队依照这个理论，为智能体设计了一个用于快速存储信息并且能够帮助信息回放并整合进入第一个系统的学习系统，验证了此前的理论，为开发更加智能的机器又迈出一步。

谷歌 DeepMind 创始人 Demis Hassabis 等人日前在 arXiv.org 刊登新作，论文题为《不需要模型的情景控制系统》（Model-Free Episodic Control）。

这是 Hassabis 等人此前在细胞出版社旗下期刊 Trends in Cognitive Sciences 发表有关“辅助学习系统”的理论之后，在计算机模型设计上的一次实践。

Hassabis 等人此前拓展辅助学习系统（CLS）理论，认为哺乳动物学习需要两个系统：一个缓慢学习结构化知识，一个快速存取信息，第二个系统内这些快速存取的信息能够被回放，最终整合进入第一个系统。

在人类和其他哺乳动物的脑中，辅助学习系统位于海马体。有了新的体验后，信息会先存储在海马体，供人直接使用。此外，我们也会把这些信息拿出来，不断回放给大脑皮层，使这些信息与其他相关经历在脑中形成的既有信息相结合。这样，辅助学习系统实现了即时学习，并使信息能够逐渐整合进入大脑新皮层的结构化知识表征。

这次，DeepMind 团队根据该理论，为深度强化学习算法设计了一个“辅助学习系统”，试验证明，算法在依照这样的策略行动后，表现得更好更快。

观看算法玩游戏的视频到这里 → https://sites.google.com/site/episodiccontrol/

摘要

最先进的深度强化学习算法需要经过上千万次互动才能达到人类的表现水平。而另一方面，人类则能在初次遭遇的新环境中很快地进行高效的探索和发掘。在大脑里，科学家认为这种快速学习的方法有赖于海马体及其情景记忆的能力。在本文中，我们将探讨以海马体情景记忆控制能力为基础构造的一种简单模型，是否能学会解决一系列困难的决策任务。作者证明了这种模型不仅让机器生成一种奖励策略，这种奖励策略性能远远超越现如今表现最好的深度强化学习算法，在一些难度极高的领域，也取得了较好的整体结果。

引言

深度强化学习（RL）近来在很多领域取得显著突破。但是，深度RL需要大量数据。例如，在玩ATARI游戏时，深度RL系统通常需要与游戏模拟器互动上千亿万次，花上数千小时才能达到人类水平。已经有事实证明，人类学会玩这些游戏所需的时间要短很多。本论文即针对如何让机器在没有任何先验知识的情况下，快速学会模仿人类玩游戏。当前的深度RL算法也能展现出学习速度很快的一系列动作。

然而，由于这些算法的深层决策或价值函数基于缓慢的梯度更新，它们还是需要经过大量步骤用于积累，从而最终完善其策略。因此，算法要学会新东西还需要一定时间。而情景控制提供了一种辅助方法，能够不断回放刚才观察到的一系列动作中获得奖励最高的那些片段。在哺乳动物脑中，科学家认为这种快速学习的方法与海马体和内侧颞叶结构有关。举例来说，一只老鼠要走出迷宫，其速度受制于海马区及相关神经元连接。

情景控制能力所带来的奖励效果是真人适用的。实验证明，具有情景控制能力的算法完成一系列任务时，速度比这要高得多。

科学家认为海马体学习是基于情景的，而新皮层则存储结构化的知识表征。海马体在提供暂时记忆的同时还提供长期记忆，因此能够用于引导决策。在依此进行编码后，在给定探测状态下，每个行动的返回都能够从CA3脑区完成模式中提取。一系列行动最终取得的值能够很快与其中一部分回放的动作联系起来。

人和其他动物会根据情景使用多种学习、记忆和决策系统。例如，在知道当前环境的准确模型时，时间和工作记忆资源都很充分，那么这种情况下最佳的策略是使用与前额叶皮层相关的基于模型的规划。但是，当规划的时间或资源不够时，就必须启用不需要进行那么多计算就能够得出结论的临时决策系统。

这种情形与基于模型解决问题的算法早期情况十分类似，在早期模型还没有得到足够多的经验产生数据。因此，这种情况也是不需要模型的情景控制最能派上用场的地方。由此，海马体在不需要模型的快速决策和需要模型的长时间规划中，都作为一个辅助决策系统，提供粗略的近似结果；与此同时，另一个更加通用的决策系统也在训练之中。

情景控制系统的应用取决于世界的复杂程度。在现实世界中，完全一样的情景是几乎不可能经历两次的。但是，在RL训练中，比如玩ATARI游戏时，完全一样的情景是可以发生一次以上的。实际上，我们观察发现，玩ATARI游戏的智能体遭遇完全一样的情景几率在 10%~60% 之间。就如预期中一样，情景控制器在ATARI情景中功效显著。而要在更接近现实环境中的情况下，情景控制器的表现如何，才是关键。因此，我们在论文中展示了，在类似的3D情景中，完全一样的场景不可能经历两次，而这种时候情景控制器的表现依然十分良好。

结论

我们的研究解决了当前强化学习系统中一个很关键的问题，那就是算法无法在小数据甚至无数据情况下进行学习。我们在论文中描述了一个基于非参数记忆的快速学习系统，并通过试验证明了它学习的速度比使用参数的函数逼近器要快得多。不过，经过长时间学习，使用参数的函数逼近器表现能够超越这种快速学习系统。

我们希望这项研究能为实际应用提供帮助，有助于设计不需要那么多数据进行训练的不需要模型的方法。

我们的结论还为这样一种假说提供了支撑，那就是大脑也使用情景控制进行学习，尤其是在遭遇全新环境的情况下。同时需要注意，有些时候不论怎样，情景控制器的学习能力就是会相对差一些。例如，在找出藏起来的食物时，有些鸟通过记忆找到当初藏食物的地方，就是不如根据自己有可能会藏食物的位置进行搜寻来得更快。这些情景支持大脑用以下方式工作：使用多个控制系统和一种复杂的机制，根据具体情况决定使用什么系统进行学习。我们在论文中将其称为不需要模型的情景控制，以及基于模型的情景规划。我们认为大脑会结合这两种策略，以及与背外侧纹状体和前额叶皮层相关的目标导向系统。

我们十分谨慎地希望能从本文中提出一个观点，那就是可供决策使用的记忆资源和时间资源是大脑决定使用哪个决策系统的关键区分点。如果时间充分且有记忆资源，大脑就会调用基于模型的规划系统，计算时间会长一些；但是，当没有记忆也没有时间时，比如才到一个全新的环境，又必须很快做出决策，那这时大脑就会使用不需要模型的情景学习系统。在两种情况下，是否启用速度快但结论不会那么精准的系统，取决于另一个学习速度稍慢的系统对当前情形复杂程度的预判，对应的是两个系统在统计数字上的差别。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-07-27，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习