DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法

作者:Jane Wang、Zeb Kurth-Nelson、Matt Botvinick

机器之心编译

上周,DeepMind 在 Nature 发表论文,用 AI 复现大脑的导航功能。今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科学中的多巴胺学习模型的局限,强调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的整体作用,并据此提出了一种新型的元强化学习证明。DeepMind 期望该研究能推动神经科学自 AI 研究的启发。

近期,AI 系统已经掌握多种视频游戏(例如 Atari 的经典游戏 Breakout 和 Pong)的玩法。虽然其表现令人印象深刻,但 AI 仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现。而人类仅需数分钟就可以掌握视频游戏的基本玩法。

对大脑何以能在如此少的经验下学到那么多这一问题的探究推动了元学习(meta-learning)或「学习如何学习」理论的发展。人们认为我们是在两个时间尺度上学习的:短期学习聚焦于学习特定实例,长期学习主要学习抽象技能或用于完成任务的规则。正是该组合帮助我们高效地学习,并在新任务上快速灵活地应用知识。在 AI 系统中重新创建这种元学习结构,即元强化学习(meta-RL),已被证明在推动快速、单次的智能体学习中卓有成效(参见 DeepMind 论文《Learning to reinforcement learn》以及 OpenAI 的相关研究《RL2: Fast Reinforcement Learning via Slow Reinforcement Learning》)。然而,大脑中允许该过程的特定机制目前在神经科学中基本未得到解释。

视频内容

在 DeepMind 刚发表在 Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的元强化学习框架来探索大脑中的多巴胺所发挥的帮助学习的作用。多巴胺是人们所熟悉的大脑快乐信号,通常被认为是 AI 强化学习算法中使用的奖励预测误差信号的类比。这些系统学习通过反复试错来行动,这是由奖励推动的。DeepMind 指出多巴胺的作用不仅仅是使用奖励来学习过去动作的价值,它发挥的是整体作用,特别是在前额叶区域,它允许我们高效、快速和灵活地在新任务上学习。

研究者通过虚拟重建神经科学领域中的六个元强化学习实验来测试该理论,每个实验需要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变化)来执行任务。研究者使用标准的深度强化学习技术(代表多巴胺)训练了一个循环神经网络(代表前额叶),然后对比该循环网络的活动动态和神经科学实验之前研究成果的真实数据。循环网络是很好的元学习代理,因为它们可以内化过去的动作和观察,然后在多种任务训练中利用那些经验。

DeepMind 重建的一个实验是 Harlow 实验,这是一个 1940 年代出现的心理测试,用于探索元学习的概念。在原始测试中,向一组猴子展示两个不熟悉的物体并让它们进行选择,只有一个物体能带来食物奖励。这两个物体被展示了 6 次,每次展示中两个物体的左右位置都是随机的,因此猴子必须学会哪个物体能带来食物奖励。然后,它们被展示了两个全新的物体,这时也是只有一个能带来食物奖励。通过该训练过程,猴子发展出了一种策略来选择奖励相关的物体:它学会了在第一次选择时进行随机选择,然后基于奖励反馈选择特定的物体,而不是左边或右边的位置。该实验证明了猴子可以内化任务的基础原则,并学习一种抽象的规则结构,即学会学习。

DeepMind 使用虚拟计算机屏幕和随机选择的图像模拟了一个类似的测试,他们发现「meta-RL agent」的学习方式与 Harlow 实验中的动物非常相似,这种相似性即使在展示完全没见过的全新图像时也会存在。

在 DeepMind 模拟的 Harlow 实验中,智能体必须将关注点移向它认为与奖励相关的目标。

实际上,DeepMind 研究团队发现 meta-RL 智能体能快速学习适应有不同规则和结构的大量任务。而且由于该循环神经网络学习了如何适应多种任务,因此它还学到了如何高效学习的通用法则。

重要的是,研究者发现大多数学习发生在循环网络中,这也支持了 DeepMind 的假设,即多巴胺在元学习过程中扮演的角色比以前认为的更重要。传统观点认为,多巴胺加强前额叶系统中的突触联系,从而强化特定的行为。在 AI 中,这一现象意味着,随着类似多巴胺的奖励信号学习到解决任务的正确方式,它们会调整神经网络中的人工突触权重。然而在一般的实验中,神经网络中的权重是固定的,这意味着权重在学习过程中不能进行调整。

模拟循环网络中编码动作和奖励历史的独立单元。

因此,DeepMind 研究团队提出了 meta-RL 智能体,它能解决并适应新的任务。这种智能体表明类似多巴胺的奖励不仅用于调整权重,它们还传输和编码关于抽象任务和规则结构的重要信息,使得智能体能够更快适应新任务。

长期以来,神经科学家们发现前额叶皮质中有类似的神经激活模式,这种模式适应速度快且灵活,但他们一直找不到一个合理的解释。前额叶皮质不依赖缓慢的突触权重变化来学习规则结构,而是使用在多巴胺中直接编码的基于模型的抽象信息,这个思路为其多功能性提供了更合理的解释。

为了证明导致人工智能元强化学习的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不仅符合多巴胺和前额叶皮质的现有知识,而且也解释了神经科学和心理学的一系列神秘发现。尤其是,该理论揭示了大脑中如何出现结构化的、基于模型的学习,多巴胺本身为什么包含基于模型的信息,以及前额叶皮质的神经元如何适应与学习相关的信号。对人工智能的深入了解可以帮助解释神经科学和心理学的发现,这也强调了领域之间可以互相提供价值。放眼未来,他们期望在强化学习智能体中设计新的学习模型时,可以从特定的脑回路组织中获得许多逆向思维的益处。

论文:Prefrontal cortex as a meta-reinforcement learning system

  • 论文地址:https://www.nature.com/articles/s41593-018-0147-8
  • 预印论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf

摘要:过去 20 年来,对基于奖励学习的神经科学研究已经收敛到了一类规范模型上,其中神经递质多巴胺通过调整神经元之间突触连接的强度在情景、动作和奖励之间建立关联。然而,近期出现的许多研究向这个标准模型提出了挑战。我们现在利用人工智能中的近期进展来引入一种新的基于奖励的学习理论。这里,多巴胺系统训练了另一个大脑区域——前额叶,来将其作为独立的学习系统。这个新的研究视角适应了启发标准模型的那些发现,并且还能很好地处理宽泛的经验观察,为未来的研究提供全新的基础。

上图展示了 meta-RL 在多个 episode 上学习如何高效地学习每一个 episode。其中 a 为智能体架构、b 为 DeepMind 模拟中实现的具体神经网络结构、c 为试验模型在带有伯努利奖励参数的摇臂赌博机问题上的行为、d 为 meta-RL 网络在摇臂赌博机问题上独立训练的性能,最后的 e 为循环神经网络激活模式在独立实验中的进化可视化。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

一文读懂量子机器学习:量子算法基石已经奠定

【新智元导读】在计算能力增加和算法进步的推动下,机器学习技术已成为从数据中寻找模式的强大工具。量子系统能生产出一些非典型(atypical)模式,而一般认为经典...

3346
来自专栏新智元

Karpathy更新深度学习开源框架排名:TensorFlow第一,PyTorch第二

上周,Keras作者、谷歌研究科学家François Chollet晒出一张图,他使用Google Search Index,展示了过去三个月,ArXiv上提到...

43710
来自专栏新智元

MIT 对抗学习和无监督学习最新进展:机器学会创作视频,预测人类行为

【新智元导读】LeCun曾在演讲中提到,2016年深度学习领域最让他兴奋的技术莫过于对抗学习,而无监督学习一直都是人工智能研究者孜孜追求的“终极目标”之一。MI...

39610
来自专栏AI研习社

学 AI 和机器学习的人必须关注的 6 个领域

近期热门的话题, 人们开始重新讨论这一基本定义----什么是人工智能(AI)。有些人将 AI 重新命名为「认知计算」或「机器智能」,而其他人则错误地将 AI ...

1582
来自专栏IT派

DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法

近期,AI 系统已经掌握多种视频游戏(例如 Atari 的经典游戏 Breakout 和 Pong)的玩法。虽然其表现令人印象深刻,但 AI 仍然依赖于数千小时...

1053
来自专栏机器之心

AI复现大脑导航功能:DeepMind重大研究突破再次登上Nature

1715
来自专栏量子位

清华段路明组自然子刊发文,揭深度神经网络和量子多体问题关联

转载自 清华大学交叉信息研究院官网 清华大学量子信息中心段路明教授和其博士研究生郜勋发现深度神经网络和量子多体问题存在紧密关联,证明利用深度神经网络模型可以有效...

2633
来自专栏大数据挖掘DT机器学习

机器学习算法工程师需要掌握的技能

实话实说,目前大部分人上各种班来学习机器学习,学习大数据,归根到底还是希望能找到一个好的工作,拿到更高的薪水,当然还有一部分原因是自己对这一方面比较感兴趣,希望...

3886
来自专栏机器人网

一图了解人工智能之机器学习学习路径

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

46713
来自专栏ATYUN订阅号

DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用

最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong。尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越...

1295

扫码关注云+社区

领取腾讯云代金券