【可解释AI重大突破】DeepMind 构建心智理论神经网络让机器互相理解

DeepMind近日发表的最新研究提出“机器心智理论”(Machine Theory of Mind),启发自心理学中的“心智理论”,研究者构建了一个心智理论的神经网络ToMnet,并通过一系列实验证明它具有心智能力。这是开发多智能体 AI 系统,构建机器 - 人机交互的中介技术,以及推进可解释AI发展的重要一步。
心智理论(ToM; Premack&Woodruff,1978)泛指人类能够理解自己以及他人的心理状态的能力,这些心理状态包括欲望、信仰、意图等。DeepMind的研究人员试图训练一台机器来构建这样的模型。他们设计了一个心智理论的神经网络(Theory of Mind neural network)——ToMnet,该网络使用元学习通过观察其行为来构建智能体(agent)所遇到的模型。通过这个过程,ToMnet获得了一个关于智能体的行为的强大先验模型,以及仅使用少量行为观察就能更丰富地预测智能体的特征和心理状态的能力。研究者将ToMnet应用到简单的格子环境中的智能体,表明它可以学习模拟来自不同群体的随机、算法和深度强化学习agent,并且它通过了经典的ToM任务测试,例如“Sally-Anne test”(Wimmer&Perner,1983; Baron-Cohen et al., 1985 )。研究者认为这个系统——智能体自主地学习如何模拟它的世界中的其他智能体——是开发多智能体AI系统,构建人机交互的中介技术,以及促进可解释AI进展的重要一步。

受人类心智理论启发的“机器心智理论”

目前,深度学习和深度强化学习取得的进展虽然令人兴奋,但也有人担心我们对这些系统的理解是不足的。神经网络通常被描述为不透明的、不可解释的黑盒。即使我们对其权重有完整的描述,也很难弄清楚它们正在利用的模式,以及它们可能出错的地方。随着AI越来越多地进入人类世界,理解它们的需求也越来越大。

让我们停下来问问:对于一个agent来说,“理解”另一个agent究竟意味着什么?作为人类,我们每天都在面对这一挑战,因为我们每天都在与潜在特征、潜在状态和计算过程都几乎完全无法访问的其他人类交流。但我们“理解”他人功能非常卓越。我们可以预测陌生人未来的行为,并推断出他们对世界的了解;我们可以规划与他人的互动,并建立高效的沟通。

对其他agent的“理解”有一个显著特点是,它们对agent的真正的底层结构几乎没有任何参考。我们人类通常不会试图去估计其他人的神经元的活动,推断他们前额皮质是怎么连接的,或者计划去与其他人的海马体地图去交互。认知心理学的一个重要观点是,我们的社会推理取决于其他人的高层次模型(Gopnik&Wellman,1992),这些模型涉及的抽象概念并未描述所观察行为的基础的详细物理机制;相反,我们理解的是他人的心理状态,例如他们的欲望、信仰和意图。这种能力通常被描述为心智理论( Theory of Mind)。

在这篇论文中,我们从人的心智理论中获得灵感,试图构建一个学习对其他智能体进行建模的系统。我们将其描述为“机器心智理论”(Machine Theory of Mind)。我们的目标不是要提出一种智能体行为的生成模型和反转它的算法。相反,我们关注的是观察者如何自主学习使用有限的数据为其他agent建模。这使我们的工作与以前的研究不同,以前的相关研究依赖人工的智能体模型,例如使用反向RL,贝叶斯推断,贝叶斯心智理论或博弈论。相反,我们学习智能体模型,以及如何通过 meta-learning从头开始对它们进行推理。

构建一个丰富、灵活并且高性能的机器心智理论对AI来说是一个巨大的挑战。本文的一个主要观点是,构建ToM的多数初始的挑战可能会被视为简单的学习问题,因为它们是用公式表示的。我们在这里的工作是对这些简单公式进行计算的练习。

这项工作有许多潜在的应用。学习他者的丰富模型将改进许多复杂的多智能体任务的决策制定(decision-making),特别是在需要基于模型的规划和想象的情况下。这些模型对于价值调整和灵活合作也很重要,而且很可能是未来机器道德决策的一个组成部分。它们对传播和教育学也非常重要,可能在人机交互中扮演关键角色。探索这种能力产生的条件也可以揭示人类能力的起源。最后,这些模型可能会成为人类理解人工智能的重要媒介。

最后,我们的强烈动机是使人工智能可以为人类所解释。我们在这里尝试一种新的方法:试图构建中介系统,以减少行为空间的维度,并以更易理解的形式表现它们,而不是修改agent的结构以使其内部状态暴露于人类可解释的形式。在这个角度上,对机器ToM的追求是建立机器与人类期望之间缺失的界面(missing interface)。

研究方法:元学习任务实验

我们考虑将构建心智理论作为一个meta-learning问题。在测试时,我们希望能够遇到一个我们以前从未见过的新的agent,并且它们已经有强大而且丰富的关于它们行为先验知识。此外,当我们看到这个agent在它的世界行动时,我们希望能够收集关于它的潜在特征和心理状态的数据(即形成后验),这将使我们能够改进对它们未来行为的预测。

为此,我们制定了一个meta-learning任务。我们构建了一个观察者(observer),它在每个episode中都可以看到agent的一组新的行为痕迹。观察者的目标是预测agent未来的行为。在训练过程中,观察者应该从有限的数据中快速形成有关新agent的预测。这种关于新agent的“学习”就是我们所说的meta-learning。通过这个过程,观察者还应该学习agent行为的有效先验,这些知识隐含地捕捉了训练群体中agent之间的共性。

我们引入两个概念来描述这个观察者网络的组成部分及其功能角色。我们区分了一般心智理论——网络的学习权重,它包含关于训练集中所有agent共同行为的预测,以及特定于agent的心智理论——在测试时通过观察形成的“agent embedding”,它包含了是什么使得agent的特征和心理状态与其他agent不同。这些对应于agent行为的先验和后验。

这篇论文的结构是一系列实验,这些实验针对该“机器心智理论”的网络(ToMnet)逐渐增加复杂度。这些实验展示了ToMnet的思想,以及它学习其他agent丰富模型的能力,这些模型融合了人类心智理论的典型特征,例如对错误信念的认识。

研究贡献:ToMnet学会预测和解释信念

本研究的贡献如下:

  • 在3.1节,我们展示了对于简单的随机智能体,ToMnet学会了基于智能体特性的近似贝叶斯最优等级推断。
  • 在3.2节,我们展示ToMnet学会了推断algorithmic agents的目标(有效执行 few-shot逆向强化学习),以及它们如何平衡成本和回报。
  • 在3.3节,我们展示ToMnet学会表征不同种类的深层强化学习智能体,捕捉整个群体变异的关键因素,并形成这些智能体的抽象嵌入。我们还表明,ToMnet可以发现关于行为空间的新抽象。
  • 在3.4节,我们表明,当ToMnet被训练于POMDPs中行动的深度RL智能体时,它隐含地知道这些agent可能持有关于世界的错误信念。这是人类心智理论的核心组成部分。
  • 在3.5节,我们证明ToMnet可以被训练来预测agent的信念状态,并且明确地揭示了agent的错误信念。我们还表明,ToMnet可以仅从它们的行为推断出不同agent能够看到的内容,以及它们基于此倾向于相信的内容。

图1. ToMnet的架构

图2.随机智能体行为的网格世界示例

图3. 在随机智能体上训练的ToMnet

图13. 有监督的信念预测

更多细节请查阅原论文:https://arxiv.org/pdf/1802.07740.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专栏 | 极限元CTO温正棋谈语音质检方案:从关键词检索到情感识别

33912
来自专栏机器之心

演讲 | Yann LeCun清华演讲:深度学习与人工智能的未来

机器之心原创 作者:高静宜 2017 年 3 月 22 日下午,Facebook 人工智能研究院院长、纽约大学终身教授 Yann LeCun 在清华大学大礼堂为...

3558
来自专栏人工智能头条

深度学习新方向:Multimodal CNN实现图像文本匹配

1525
来自专栏新智元

UCSB研究发现计算机与人类视觉差异,用人眼搜索策略提升计算机视觉

【新智元导读】 加州大学圣巴巴拉分校的研究人员发现,当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。他们研究这一现象,试图更好地理...

3387
来自专栏ATYUN订阅号

新的AI工具可帮助设计人员扩展虚拟纹理,保持高度逼真

深圳大学和华中科技大学研究人员创造了一种新的AI工具,可以帮助设计人员为视频游戏,虚拟现实和动画制作更逼真的虚拟纹理。

1244
来自专栏华章科技

LeCun:智能的精华在于预测能力!“预测学习”了解一下!

导读:在NIPS 2016大会上,著名研究者LeCun提出了预测学习(predictive learning)概念。在他的讲稿中,将机器学习比喻为“蛋糕”:

803
来自专栏AI科技大本营的专栏

盘点深度学习一年来在文本、语音和视觉等方向的进展,看强化学习如何无往而不利

【AI科技大本营导读】AlphaZero自学成才,机器人Atlas苦练后空翻……2017年,人工智能所取得的新进展真是让人应接不暇。而所有的这些进展,都离不开深...

3315
来自专栏新智元

线性模型可解释一定比DNN高?UCSD科学家:大错特错!

【新智元导读】人们对深度学习模型的真正运行机制还远远没有完全了解,如何提高预测模型的“可解释性”成了一个日益重要的话题。近来的一篇论文讨论了机器学习模型的“可解...

392
来自专栏新智元

【让神经网络能够“通感”】MIT 和谷歌研究连接文字、声音和视频

【新智元导读】如何让神经网络学会完成一项任务后,不忘记已有的知识,再次学会另一项任务?日前,来自 MIT 和谷歌研究人员分别朝着这一目标做出了努力。MIT 的研...

3989
来自专栏ATYUN订阅号

评估品牌对大众的曝光程度,深度学习方案可解决这一问题

监控品牌知名度和衡量投资回报率在营销活动是重要的商业挑战,尤其是在广告驱动产业。品牌经常不得不在广告牌,包括户外或网站上,利用有限的时间曝光自己。在这篇文章里,...

3465

扫码关注云+社区