学界 | 心理学带来曙光,DeepMind要像理解人一样理解模型

AI 科技评论按:人类对各种深度学习模型最常见的不满之一就是难以解释、无法理解,即便可以查看训练好的网络的每个连接的权重,也说不清网络利用的数据模式是哪些,以及网络目前的运行状况里有哪些问题。

不过,人类从不怀疑自己可以理解另一个人类:我们可以通过各种方法了解并描述别人的诉求、观念和当下的想法,可以推测别人知道哪些信息,可以猜测别人的未来行动,我们同时也就以此为基础考虑如何和别人互动。其实绝大多数情况下我们都不会尝试重建别人的脑神经结构,不会尝试估计别人的脑神经元的活动状况如何、前额叶的连接性如何、海马体的工作状况如何。这时候我们所谈的理解,就是对别人的心理状况的高层次抽象,不再尝试描述细碎的内部运行机理。这种注重于预测和计划理解能力被称为「心智理论 Theory of Mind」。(心智理论,心理学术语,是一种能够理解自己以及周围人类的心理状态的能力,这些心理状态包括情绪、信仰、意图、欲望、假装与知识等)

在近期新发表的论文《Machine Theory of Mind》中,DeepMind 就以心智理论的视角重新研究了如何理解另一个模型的问题。他们的目标是让环境中的观察者在有限的数据下自动学习如何对新遇到的智能体建模——不是尝试学出一个模仿的算法,而是学习如何像人理解人一样地预测另一个智能体的行为,甚至发现别的智能体的观念和实际环境状况之间的矛盾。他们把这种新理论称为「Machine Theory of Mind」(机器心智理论),为此建立的模型称为 ToMnet。在 DeepMind 的研究人员们看来,这还可以是一种新的改进深度学习的可解释性的方法,可以不用再像以往那样尝试设计能表述自己内在状态的系统,而是作为新的中转系统、人机接口,缩小原系统的行为空间大小,把难以理解的神经网络以人类好理解的形式转述出来。

DeepMind 的研究人员们把这个机器心智理论问题形式化为一个元学习问题,让观察者智能体学习如何在环境中遇到一个新智能体之后收集数据对它进行建模,了解它的隐含特点和心理状态,从而更好地预测它的未来行为。

这个观察者要学习的内容也需要分为两个层次,一个层次是基于网络学习到的权重的总体理论,它是对训练集中所有智能体的共有行为的隐式描述;另一个层次是在测试阶段观察单个智能体,尝试描述它独有的特征和心理状态。而这两个层次也就分别构成了对智能体行为的先验和后验判断。

ToMnet 架构:character net 从一组部分可观察的马尔可夫决策过程(POMDP)中解析一个智能体的过往行动轨迹,形成特征嵌入 echar;mental state net 根据智能体当前的行为解析出它当前的心理状态嵌入 emental。这些嵌入会作为 prediction net 的输入,它查询当前状态之后形成对未来预测的三个输出:下一步行动的可能性

,某个对象是否会被使用掉的可能性

,以及预测的后续的表征

在论文中,DeepMind 的研究人员们围绕提出的 ToMnet 进行了一系列难度递增的实验,逐步介绍 ToMnet 的设计思路、展示它的应用典型的人类心理理论技巧对其它各种各样的模型建模的能力。

  • 对于简单、随机的智能体,ToMnet 可以学到对智能体特点的最优层次化贝叶斯推理的近似;
  • 对于基于算法的智能体,ToMnet 可以通过小样本反向强化学习找到它们的目标,以及理解它们如何在成本和反馈中找到平衡;
  • ToMnet 可以找到成群的强化学习智能体之间的多种变量的关键值,从而把它们分为不同的类别,并给智能体生成抽象嵌入。ToMnet 也可以给行为空间生成新的抽象;
  • 用部分可观察马尔可夫决策过程中的深度强化学习智能体训练的 ToMnet 可以隐式地发现这些智能体持有的对环境的错误观念,而这正是人类的心理理论中的重要部分;
  • ToMnet 还可以训练用于预测别的智能体的观念状态,显式地揭露出别的智能体的错误观念。DeepMind 的研究人员们还表明 ToMnet 仅仅根据别的智能体的行为就可以能够推知它们观察到了哪些东西、接下来会倾向于相信什么。
带有子任务的环境,其中的智能体可能会抱有对环境的错误认识。
  • 图 (a) :智能体寻找子目标(星星)的轨迹(红色箭头)。智能体只能观察到环境的一部分:深灰色的区域还没有观察到,浅灰色的区域之前观察过,但在获得子目标之后就观察不到了。
  • 图 (b):当智能体获得子目标后,所有其它的物体有一个很小的可能性会立即交换位置。(b) 左:交换发生在智能体视野之内;(b) 右:交换发生在智能体视野之外
  • 图 (c):交换位置对智能体紧接着的策略产生的影响
  • 图 (d):交换位置对智能体的经验后续表征产生的影响

DeepMind 的这一系列实验内容还比较简单,主要为了展示这样的系统的主要思路和能力。要拓展它的能力和领域、与人类共同评比还有很长的路要走。不过,这种思路对于人类这样依赖社交性思考的人物确实有着重要意义。

未来 DeepMind 打算在其中继续增加 ToMnet 需要做出的预测的数量、在建模其它智能体的行为过程中加入轻微的总结偏倚,以及如何根据自己的经验和认识把自己的模型告诉别的智能体。这些都是可能的多智能体合作研究中的重要课题。

另外值得一提的是,ICLR 2017 最佳论文奖得主之一的张驰原也是这篇论文的作者之一。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

扎克伯格预言即将成真:计算机可解读图片内容

25713
来自专栏奇点大数据

统计、概率和数据挖掘

统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。 我们这本...

2444
来自专栏AI研习社

如何在 15 个月内占领 Kaggle 榜首?bestfitting 经验大放送

雷锋网 AI 研习社按:相信玩过 Kaggle 比赛的人都知道 bestfitting,他在加入 Kaggle 社群短短两年之内,就以黑马之姿成功占领比赛排行榜...

752
来自专栏携程技术中心

干货 | 助理来也胡一川:深度学习在智能助理中的应用

作者简介 胡一川,来也联合创始人和CTO。来也专注于智能对话技术,让每个人拥有助理。此前,胡一川联合创立了影视推荐引擎"今晚看啥"并被百度收购,后加入百度任资深...

3827
来自专栏人工智能头条

专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

1715
来自专栏机器之心

前沿 | 不再需要动作捕捉,伯克利推出「看视频学杂技」的AI智能体

作者:Xue Bin (Jason) Peng 和 Angjoo Kanazawa

1183
来自专栏ATYUN订阅号

伯克利智能体观看视频片段学习动作技能,无需手动标注

无论是像洗手这样的日常动作还是惊人的杂技技能,人类都可以通过观察其他人来学习。随着YouTube等来源的公开视频数据的激增,现在比以往任何时候都更容易找到我们感...

1155
来自专栏新智元

2016 年不容错过的 30 个机器学习视频、教程&课程

【新智元导读】2016 年就要过去了,关于机器学习的知识储备你觉得自己做得如何?下面是 Analytics Vidhya 网站发表的文章,汇集了 2016 年机...

4065
来自专栏ATYUN订阅号

Facebook无监督机器学习翻译突破,表现优于监督模型

当从一种语言到另一种语言的翻译示例没有很多时(例如从英语到乌尔都语),Facebook使用无监督的机器学习来翻译其平台上的内容。

771
来自专栏祝威廉

从内容/用户画像到如何做算法研发

中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。

1203

扫码关注云+社区