【Nature 通信】研究发现观察学习的单个神经元计算机制（视频+论文）

新智元

发布于 2018-03-23 15:15:57

7210

发布于 2018-03-23 15:15:57

文章被收录于专栏：新智元

【新智元导读】《自然－通信》今日刊文，揭露人类在通过观察学习时大脑里的计算机制。Michael Hill 和他的同事分析了十名癫痫患者在玩纸牌游戏时，大脑中单个神经元的录像，发现只有延髓前扣带皮层（rACC）的神经元会在观测预期与实际结果不同时进行编码。这项研究也是首次对正在观察其他人活动中的单个神经元活动进行直接分析。相关结果也被用于人工智能算法。

人类可以通过观察另一个人采取行动所造成的后果进行学习，这也属于社会性学习（Social Learning）。社会学习理论认为，学习是一个发生在社会环境中的认知过程，可以通过观察或直接指令纯粹地发生，即使没有动作再现（Motor Reproduction）或直接强化也可以实现。

以往的研究表明，与社会性学习的两大主要过程——社会回路和奖励回路相关的三个主要脑区，是杏仁核、左喙内侧前额叶皮层和延髓前扣带皮层（rACC）。但是，科学家并不知道，当人在单纯学习时与通过观看其他人进行学习时，这些脑区的单个神经元表现有何不同。

Michael Hill 和他的同事分析了十名癫痫患者在玩纸牌游戏时大脑中单个神经元的录像。在这个游戏中，参与者可以从两叠牌中抽一张牌，其中一叠抽中中奖牌的几率比较高（70％），另一叠比较低（30％）。每一轮中，参与者自己会抽牌，也会观察另外两个虚拟玩家抽牌，因此，参与者能够从自身经验和观察他人活动中学习。

在玩游戏过程中拍摄下的单细胞电极录像表明，虽然杏仁核和左喙内侧前额叶皮层的神经元会对输赢产生反应，在参与者自己做出的选择和观看别人做出选择结果不同时，只有延髓前扣带皮层（rACC）的神经元会进行编码。

（a）在纸牌游戏中，参与者进行12局游戏，每一局含有5轮。每一轮都包括参与者的一次自体验（self-experienced，SE）及两次观察（Obs1 和 Obs2）。（b）每次抽牌的结构。（c）老虎机游戏，每位参与者至少玩5分钟。（d）贝叶斯学习模型生成的牌堆的奖励值，用于对参与者的预期值和行为建模。热图描绘了其中一位参与者对第一叠牌（随机确定）奖励值每一次预期值的分布的概率质量，真正的奖励生成概率用白色表示。品红色表示每一次的分布，构成了研究人员对每名参与者预期值的估计。每轮游戏（共15次）开始时真正的概率用50％的几率反转。（e）所有十名参与者被记录的脑区在Caret Conte69 人脑表面图的映射。

牛津大学的神经科学家 Matthew Apps 也参与了这项研究，他表示进行这项研究的基本想法是有一个脑区专门负责处理其他人类的信息。“我们对其他人有什么看法或许可以直接用于我们如何认知自己。”Apps 在接受 The Scientist 采访时表示。

这项社会学学习实验由UCLA 和加州理工大学的研究人员合作进行。研究小组首先找到了十名在罗纳德·里根医学中心接受为期一周治疗的癫痫患者，他们的大脑里都被植入了电极，用以查明他们癫痫发作的病灶。Apps 表示，找到这群参与实验的患者是研究得以进行的关键，“这是一套非常罕见的数据集，让整个研究更加有力。”

研究人员让这十名参与者在笔记本电脑上玩卡牌游戏。每一轮，参与者可以从两叠正面朝下的牌堆中选择一叠然后从中抽出一张牌，结果要么是①获得 10 美元或 100 美元的奖励，②被扣罚 10 美元或 100 美元。其中，有一叠牌的 70% 都是获胜的牌（也即中奖牌），另一叠牌中只有 30% 是中奖牌。游戏的目标是尽量让手头的资金增加，终局金额最多的人获胜。

游戏中，参与者可以通过试错，也就是自我体验进行学习。同时，他们也能够通过观看另外两位虚拟“玩家”抽牌的结果进行学习。因此，参与者每做出一个决定，都会得到另外两份不同类型的数据供他们进行推论。整个游戏过程中，当参与者预测哪叠牌的中奖几率更高，以及怎样避免输钱时，他们大脑的神经元活动都被研究人员记录下来。

“我们实际记录的信号是动作电位，也是大脑活动最基础的成分——动作电位是生物学变成信息的开始，”论文共同作者、如今在瑞士洛桑联邦理工学院（EPFL）神经义肢中心工作的 Michael Hill 表示。

Hill 和他的团队查看了杏仁核、左喙内侧前额叶皮层和延髓前扣带皮层这三个脑区的神经元活动。根据以往的研究，这三个脑区会在进行社会性学习时（比如参与者本人预测左边的一叠更有可能抽中中奖牌，但却发现虚拟玩家从左侧一叠中抽到了扣罚牌）产生响应。研究发现，杏仁核和左喙内侧前额叶皮层的神经元无论玩家预测如何，都以同样的方式发生响应。然而，延髓前扣带皮层的神经元会在参与者自己的预测与虚拟玩家所得结果不同时，产生不同的表现。

“延髓前扣带皮层的神经元高度参与［社会性学习计算］，”Hill 表示，当然他也指出，这一结果并不意味着杏仁核和前额叶皮层在社会性学习中不发挥作用。

耶鲁大学的神经生物学家 Steve Chang 没有参与这项研究，他以评论员的身份告诉 The Scientist 记者，Hill 等人的实验结果与此前针对啮齿类和人类以外的灵长类实验结果相一致。“这样的结果为我们聚焦动物大脑类似的脑区……因果性地人为操控它们从而判断神经元的活动提供了很好的指导，”Change 表示：“这些来自不同角度的结果终将整合在一起，描绘出有关社会认知的有趣的画面。”

对人类来说，相关的结果有助于自闭症等精神疾病患者的临床医疗。Apps 如今正和几位同事一起，研究由于延髓前扣带皮层神经元的缺失引起的无法预测错误是否对自闭症倾向有关。

Hill 表示，这项研究成功“超越了不同程度的神经科学”，包括抽象水平的计算模型（体现在单个神经元的活动）和人类行为和互动。该研究还揭示了所谓的“幸灾乐祸”（看见其他人失败，自己感到开心的行为，德语用“schadenfreude”表示）的神经元机制。

“虽然我们目前还不清楚神经元是如何编码的，”Hill 表示：“但是看着这些反映了‘幸灾乐祸’的单个神经元活动太奇妙了！”

相关论文

【题目】Observational learning computations in neurons of the human anterior cingulate cortex

【作者】Michael R. Hill、Erie D. Boorman、Itzhak Fried

摘要

研究发现，当从直接经验中学习时，灵长类动物大脑的神经元会编码一个教学信号——奖励预测误差（PE）：对一个事件的预期回报以及实际回报之间的差别，PE也被用于人工智能算法。然而，人类和其他动物常常通过观察其他个体进行学习。在这里，我们表明了纸牌游戏中，人类观察其他玩家时，他们延髓前扣带皮层（rACC）的神经元会对预期值和观测值进行编码，最终得出结果的PE。值得注意的是，在同一过程中，杏仁核和左喙内侧前额叶皮层（rmPFC）的神经元中不会进行这类编码。我们的研究结果表明，人类通过观察他人进行学习，至少部分是通过rACC单个神经元对观测到的PE进行编码发生的。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-09-07，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能