DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法

作者:Jane Wang、Zeb Kurth-Nelson、Matt Botvinick

机器之心编译

上周,DeepMind 在 Nature 发表论文,用 AI 复现大脑的导航功能。今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科学中的多巴胺学习模型的局限,强调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的整体作用,并据此提出了一种新型的元强化学习证明。DeepMind 期望该研究能推动神经科学自 AI 研究的启发。

近期,AI 系统已经掌握多种视频游戏(例如 Atari 的经典游戏 Breakout 和 Pong)的玩法。虽然其表现令人印象深刻,但 AI 仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现。而人类仅需数分钟就可以掌握视频游戏的基本玩法。

对大脑何以能在如此少的经验下学到那么多这一问题的探究推动了元学习(meta-learning)或「学习如何学习」理论的发展。人们认为我们是在两个时间尺度上学习的:短期学习聚焦于学习特定实例,长期学习主要学习抽象技能或用于完成任务的规则。正是该组合帮助我们高效地学习,并在新任务上快速灵活地应用知识。在 AI 系统中重新创建这种元学习结构,即元强化学习(meta-RL),已被证明在推动快速、单次的智能体学习中卓有成效(参见 DeepMind 论文《Learning to reinforcement learn》以及 OpenAI 的相关研究《RL2: Fast Reinforcement Learning via Slow Reinforcement Learning》)。然而,大脑中允许该过程的特定机制目前在神经科学中基本未得到解释。

视频内容

在 DeepMind 刚发表在 Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的元强化学习框架来探索大脑中的多巴胺所发挥的帮助学习的作用。多巴胺是人们所熟悉的大脑快乐信号,通常被认为是 AI 强化学习算法中使用的奖励预测误差信号的类比。这些系统学习通过反复试错来行动,这是由奖励推动的。DeepMind 指出多巴胺的作用不仅仅是使用奖励来学习过去动作的价值,它发挥的是整体作用,特别是在前额叶区域,它允许我们高效、快速和灵活地在新任务上学习。

研究者通过虚拟重建神经科学领域中的六个元强化学习实验来测试该理论,每个实验需要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变化)来执行任务。研究者使用标准的深度强化学习技术(代表多巴胺)训练了一个循环神经网络(代表前额叶),然后对比该循环网络的活动动态和神经科学实验之前研究成果的真实数据。循环网络是很好的元学习代理,因为它们可以内化过去的动作和观察,然后在多种任务训练中利用那些经验。

DeepMind 重建的一个实验是 Harlow 实验,这是一个 1940 年代出现的心理测试,用于探索元学习的概念。在原始测试中,向一组猴子展示两个不熟悉的物体并让它们进行选择,只有一个物体能带来食物奖励。这两个物体被展示了 6 次,每次展示中两个物体的左右位置都是随机的,因此猴子必须学会哪个物体能带来食物奖励。然后,它们被展示了两个全新的物体,这时也是只有一个能带来食物奖励。通过该训练过程,猴子发展出了一种策略来选择奖励相关的物体:它学会了在第一次选择时进行随机选择,然后基于奖励反馈选择特定的物体,而不是左边或右边的位置。该实验证明了猴子可以内化任务的基础原则,并学习一种抽象的规则结构,即学会学习。

DeepMind 使用虚拟计算机屏幕和随机选择的图像模拟了一个类似的测试,他们发现「meta-RL agent」的学习方式与 Harlow 实验中的动物非常相似,这种相似性即使在展示完全没见过的全新图像时也会存在。

在 DeepMind 模拟的 Harlow 实验中,智能体必须将关注点移向它认为与奖励相关的目标。

实际上,DeepMind 研究团队发现 meta-RL 智能体能快速学习适应有不同规则和结构的大量任务。而且由于该循环神经网络学习了如何适应多种任务,因此它还学到了如何高效学习的通用法则。

重要的是,研究者发现大多数学习发生在循环网络中,这也支持了 DeepMind 的假设,即多巴胺在元学习过程中扮演的角色比以前认为的更重要。传统观点认为,多巴胺加强前额叶系统中的突触联系,从而强化特定的行为。在 AI 中,这一现象意味着,随着类似多巴胺的奖励信号学习到解决任务的正确方式,它们会调整神经网络中的人工突触权重。然而在一般的实验中,神经网络中的权重是固定的,这意味着权重在学习过程中不能进行调整。

模拟循环网络中编码动作和奖励历史的独立单元。

因此,DeepMind 研究团队提出了 meta-RL 智能体,它能解决并适应新的任务。这种智能体表明类似多巴胺的奖励不仅用于调整权重,它们还传输和编码关于抽象任务和规则结构的重要信息,使得智能体能够更快适应新任务。

长期以来,神经科学家们发现前额叶皮质中有类似的神经激活模式,这种模式适应速度快且灵活,但他们一直找不到一个合理的解释。前额叶皮质不依赖缓慢的突触权重变化来学习规则结构,而是使用在多巴胺中直接编码的基于模型的抽象信息,这个思路为其多功能性提供了更合理的解释。

为了证明导致人工智能元强化学习的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不仅符合多巴胺和前额叶皮质的现有知识,而且也解释了神经科学和心理学的一系列神秘发现。尤其是,该理论揭示了大脑中如何出现结构化的、基于模型的学习,多巴胺本身为什么包含基于模型的信息,以及前额叶皮质的神经元如何适应与学习相关的信号。对人工智能的深入了解可以帮助解释神经科学和心理学的发现,这也强调了领域之间可以互相提供价值。放眼未来,他们期望在强化学习智能体中设计新的学习模型时,可以从特定的脑回路组织中获得许多逆向思维的益处。

论文:Prefrontal cortex as a meta-reinforcement learning system

  • 论文地址:https://www.nature.com/articles/s41593-018-0147-8
  • 预印论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf

摘要:过去 20 年来,对基于奖励学习的神经科学研究已经收敛到了一类规范模型上,其中神经递质多巴胺通过调整神经元之间突触连接的强度在情景、动作和奖励之间建立关联。然而,近期出现的许多研究向这个标准模型提出了挑战。我们现在利用人工智能中的近期进展来引入一种新的基于奖励的学习理论。这里,多巴胺系统训练了另一个大脑区域——前额叶,来将其作为独立的学习系统。这个新的研究视角适应了启发标准模型的那些发现,并且还能很好地处理宽泛的经验观察,为未来的研究提供全新的基础。

上图展示了 meta-RL 在多个 episode 上学习如何高效地学习每一个 episode。其中 a 为智能体架构、b 为 DeepMind 模拟中实现的具体神经网络结构、c 为试验模型在带有伯努利奖励参数的摇臂赌博机问题上的行为、d 为 meta-RL 网络在摇臂赌博机问题上独立训练的性能,最后的 e 为循环神经网络激活模式在独立实验中的进化可视化。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【重磅】深度学习难以加冕算法之王 3 大根本原因

【新智元导读】New Frontiers in Computing 2016 日前在斯坦福举行, 探讨视觉、NPL、人机界面等认知和计算前沿问题。本文是参会笔记...

3698
来自专栏AI科技评论

学界 | FAIR 田渊栋:2017 年的一些研究和探索

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索。 今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收...

2184
来自专栏人工智能头条

入坑机器学习,十个知识点你不得不知

1262
来自专栏人工智能头条

CCAI 2017 | 香港科技大学计算机系主任杨强:论深度学习的迁移模型

652
来自专栏新智元

DeepMind最新ICML论文:价值分布方法超越所有传统强化学习

【新智元导读】DeepMind 在他们的 ICML 2017 论文 A Distributional Perspective on Reinforcement ...

3659
来自专栏码云1024

入坑机器学习,你首先得知道这十个知识点...

编者按:本文由微信公众号“将门创投”(ID:thejiangmen)编译,来源:Medium,编译:Tom R。

44614
来自专栏AI科技大本营的专栏

翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!

神经机器翻译(NMT)关注的是通过 AI 在不同人类语言之间进行翻译的过程。2015 年,蒙特利尔学习算法研究所的研究人员开发出了一项新的算法模型,最终让机器给...

934
来自专栏华章科技

一文读懂机器学习,大数据/自然语言处理/算法全有了……

机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(...

781
来自专栏AI研习社

无监督学习和 transformers 如何在 OpenAI 手里玩出新花样

AI 研习社按:OpenAI 近期更新了一篇博客,他们利用一个任务无关的可扩展系统在多语言任务上取得了卓越进展。论文及代码已经公布。他们的方法结合了 trans...

784
来自专栏PPV课数据科学社区

【学习】关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

4618

扫码关注云+社区