学界 | 心理学带来曙光,DeepMind要像理解人一样理解模型

AI 科技评论按:人类对各种深度学习模型最常见的不满之一就是难以解释、无法理解,即便可以查看训练好的网络的每个连接的权重,也说不清网络利用的数据模式是哪些,以及网络目前的运行状况里有哪些问题。

不过,人类从不怀疑自己可以理解另一个人类:我们可以通过各种方法了解并描述别人的诉求、观念和当下的想法,可以推测别人知道哪些信息,可以猜测别人的未来行动,我们同时也就以此为基础考虑如何和别人互动。其实绝大多数情况下我们都不会尝试重建别人的脑神经结构,不会尝试估计别人的脑神经元的活动状况如何、前额叶的连接性如何、海马体的工作状况如何。这时候我们所谈的理解,就是对别人的心理状况的高层次抽象,不再尝试描述细碎的内部运行机理。这种注重于预测和计划理解能力被称为「心智理论 Theory of Mind」。(心智理论,心理学术语,是一种能够理解自己以及周围人类的心理状态的能力,这些心理状态包括情绪、信仰、意图、欲望、假装与知识等)

在近期新发表的论文《Machine Theory of Mind》中,DeepMind 就以心智理论的视角重新研究了如何理解另一个模型的问题。他们的目标是让环境中的观察者在有限的数据下自动学习如何对新遇到的智能体建模——不是尝试学出一个模仿的算法,而是学习如何像人理解人一样地预测另一个智能体的行为,甚至发现别的智能体的观念和实际环境状况之间的矛盾。他们把这种新理论称为「Machine Theory of Mind」(机器心智理论),为此建立的模型称为 ToMnet。在 DeepMind 的研究人员们看来,这还可以是一种新的改进深度学习的可解释性的方法,可以不用再像以往那样尝试设计能表述自己内在状态的系统,而是作为新的中转系统、人机接口,缩小原系统的行为空间大小,把难以理解的神经网络以人类好理解的形式转述出来。

DeepMind 的研究人员们把这个机器心智理论问题形式化为一个元学习问题,让观察者智能体学习如何在环境中遇到一个新智能体之后收集数据对它进行建模,了解它的隐含特点和心理状态,从而更好地预测它的未来行为。

这个观察者要学习的内容也需要分为两个层次,一个层次是基于网络学习到的权重的总体理论,它是对训练集中所有智能体的共有行为的隐式描述;另一个层次是在测试阶段观察单个智能体,尝试描述它独有的特征和心理状态。而这两个层次也就分别构成了对智能体行为的先验和后验判断。

ToMnet 架构:character net 从一组部分可观察的马尔可夫决策过程(POMDP)中解析一个智能体的过往行动轨迹,形成特征嵌入 echar;mental state net 根据智能体当前的行为解析出它当前的心理状态嵌入 emental。这些嵌入会作为 prediction net 的输入,它查询当前状态之后形成对未来预测的三个输出:下一步行动的可能性

,某个对象是否会被使用掉的可能性

,以及预测的后续的表征

在论文中,DeepMind 的研究人员们围绕提出的 ToMnet 进行了一系列难度递增的实验,逐步介绍 ToMnet 的设计思路、展示它的应用典型的人类心理理论技巧对其它各种各样的模型建模的能力。

  • 对于简单、随机的智能体,ToMnet 可以学到对智能体特点的最优层次化贝叶斯推理的近似;
  • 对于基于算法的智能体,ToMnet 可以通过小样本反向强化学习找到它们的目标,以及理解它们如何在成本和反馈中找到平衡;
  • ToMnet 可以找到成群的强化学习智能体之间的多种变量的关键值,从而把它们分为不同的类别,并给智能体生成抽象嵌入。ToMnet 也可以给行为空间生成新的抽象;
  • 用部分可观察马尔可夫决策过程中的深度强化学习智能体训练的 ToMnet 可以隐式地发现这些智能体持有的对环境的错误观念,而这正是人类的心理理论中的重要部分;
  • ToMnet 还可以训练用于预测别的智能体的观念状态,显式地揭露出别的智能体的错误观念。DeepMind 的研究人员们还表明 ToMnet 仅仅根据别的智能体的行为就可以能够推知它们观察到了哪些东西、接下来会倾向于相信什么。
带有子任务的环境,其中的智能体可能会抱有对环境的错误认识。
  • 图 (a) :智能体寻找子目标(星星)的轨迹(红色箭头)。智能体只能观察到环境的一部分:深灰色的区域还没有观察到,浅灰色的区域之前观察过,但在获得子目标之后就观察不到了。
  • 图 (b):当智能体获得子目标后,所有其它的物体有一个很小的可能性会立即交换位置。(b) 左:交换发生在智能体视野之内;(b) 右:交换发生在智能体视野之外
  • 图 (c):交换位置对智能体紧接着的策略产生的影响
  • 图 (d):交换位置对智能体的经验后续表征产生的影响

DeepMind 的这一系列实验内容还比较简单,主要为了展示这样的系统的主要思路和能力。要拓展它的能力和领域、与人类共同评比还有很长的路要走。不过,这种思路对于人类这样依赖社交性思考的人物确实有着重要意义。

未来 DeepMind 打算在其中继续增加 ToMnet 需要做出的预测的数量、在建模其它智能体的行为过程中加入轻微的总结偏倚,以及如何根据自己的经验和认识把自己的模型告诉别的智能体。这些都是可能的多智能体合作研究中的重要课题。

另外值得一提的是,ICLR 2017 最佳论文奖得主之一的张驰原也是这篇论文的作者之一。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析

使用 IR 方法论和指标用于推荐系统的评估在近年来发展迅速,已成为该领域中的常用实践方法,其将理解推荐看成排序任务 [14]。然而 IR 指标已被发现在推荐受欢...

991
来自专栏AI研习社

Andrej Karpathy谈神经网络:这不仅仅是分类器,这是一种新的软件开发思想

有越来越多的传统编程语言(C、C++、Java)等程序员开始学习机器学习/深度学习,而对机器学习/深度学习的研究人员来说,编程也是必备技巧。那么传统程序员和深度...

3044
来自专栏算法channel

一文梳理NLP之机器翻译和自动摘要的发展现状

2 NLP入门:CNN,RNN应用文本分类,个性化搜索,苹果和乔布斯关系抽取(2)

752
来自专栏新智元

【重磅】AI 自动研发机器学习系统,DeepMind 让算法学习强化学习(附论文)

【新智元导读】眼下,人工智能研发的一个大方向是用AI系统来自动化开发AI系统。虽然这一目标尚未实现,但目前的进展让已足够令人人震惊。本文介绍了最新的一些进展,包...

3428
来自专栏PPV课数据科学社区

技术 | 从算法原理,看推荐策略

协同过滤推荐算法应该算是一种用的最多的推荐算法,它是通过用户的历史数据来构建“用户相似矩阵”和“产品相似矩阵”来对用户进行相关item的推荐,以达到精准满足用户...

2266
来自专栏CDA数据分析师

如果用Excel仪表盘分析雾霾……

注: 文中使用数据均来自互联网,为各城市2013年12月到2016年9月统计的大气质量相关指标月平均值。数据内只包含有代表性的一些城市,没有覆盖全国,数据没有经...

2045
来自专栏新智元

再见AI黑匣子:研究人员教会AI进行自我解释

---- 新智元编译 来源:thenextweb 作者:艾霄葆 【新智元导读】AI决策过程的黑匣子问题一直是AI领域最大的担忧之一,但近期黑匣子决策问...

34811
来自专栏新智元

AI算法如何学习写作政治演讲?

政治演讲经常是由政客的亲信和心腹写作而成。AI算法可以做的一样好吗? ? “不要想着国家为你做些什么,而要想着你能为国家做些什么。” ——肯尼迪,1961年 当...

2745
来自专栏新智元

成为未来几年最炙手可热的机器学习人才,基本功、秘密武器和弹药补给

【新智元导读】工业界未来几年需要什么样的机器学习人才?哪些热点值得追?作者认为,巩固基础、寻找自己擅长的领域和机器学习交叉点可以帮助你在未来的就业市场变得炙手可...

2924
来自专栏AI科技评论

Andrej Karpathy发文谈神经网络:这不仅仅是分类器,这是一种新的软件开发思想

AI科技评论按:有越来越多的传统编程语言(C、C++、Java)等程序员开始学习机器学习/深度学习,而对机器学习/深度学习的研究人员来说,编程也是必备技巧。那么...

3125

扫描关注云+社区