DeepMind两篇新论文研究用神经网络做关系推理,探索人类智慧核心

陈桦 编译自 DeepMind官方博客 作者 Adam Santoro, David Raposo, Nick Watters 量子位 报道 | 公众号 QbitAI

关系推理是什么?DeepMind举了这么几个例子:

阿加莎·克里斯蒂小说的读者一点点地拼凑证据猜测犯人;小朋友追到球的前边防止它滚进河里;在市场上买东西的人做各方面的比较,挑选猕猴桃或者芒果。

最近,这家公司发表了两篇论文,探讨了神经网络如何用非结构化数据进行复杂关系推理,并在官方博客上对这个研究课题和两篇论文进行了介绍。

以下是DeepMind官方博客上的文章,量子位编译:

我们会将世界分割成事物之间的关系。通过对不同事物,例如实体对象、语句,甚至抽象概念之间的关系得出逻辑结论,我们就可以理解世界的运转方式。这种能力被称作关系推理,是人类智慧的核心。

通过每天获得的非结构化感官信息,我们建立起这样的关系。例如,我们的眼睛接受了大量光子,而大脑则将这些混乱的信息组成为我们需要关联在一起的特定实体。

如果希望人工智能系统具备类似人类认知能力的灵活性和效率,那么关键挑战在于,从非结构化数据中推断出实体及其之间的关系。这个问题的解决将使系统可以生成新的实体组合,基于有限的方法获得无限的用途。

当代深度学习方法已经在处理非结构化数据方面取得了巨大进展。然而,这些方法往往没有明确考虑对象之间的关系。

在两篇新论文中,DeepMind探讨了深度神经网络利用非结构化数据进行复杂关系推理的能力。在第一篇论文,《用于简单关系推理的神经网络模块》中,我们描述了一种关系网络(RN),并证明其可以在具有挑战性的任务中实现超人的水平。在第二篇论文,《视觉交互网络》中,我们描述了一种通用模型,可基于视觉观察来预测实体对象的未来状态。

用于简单关系推理的神经网络模块

为了更深入地探索关系推理的概念,并测试能否以简单的方式将其集成至现有系统中,我们创建了一个简单的、即插即用的RN模块,并将其添加到现有神经网络体系结构中。一个经过RN增强的网络可以接受非结构化的数据输入,例如图片或语句,并推断其中所包含对象的关系。

例如,一个带RN的网络可能会看到包含不同形状的场景,例如球体和立方体。为了研究它们之间的关系(例如球体比立方体更大),网络必须从图像中获取非结构化的像素流,并指出在场景中哪些像素构成了对象。神经网络并没有被告知对象的定义,必须自己得出结论。随后,这些对象的展示经过了分组(例如球体和立方体),并由RN模块进行处理。RN模块比较这些对象,建立“关系”(例如球体比立方体更大)。这些关系并不是硬编码的,必须由RN来学习,RN对所有可能的配对进行了比较。最终,RN将这些关系综合在一起,为场景中的所有图形对生成输出。

我们在几种任务中测试了这个模型,包括CLEVR,一个视觉问答任务。CLEVR设计用于研究模型完成不同类型推理,例如计数、比较和查询的能力。CLEVR由以下这样的图片构成:

每张图片都有其关联的问题,专注于场景中对象的关系。例如,关于上图的问题或许是:“这里有个小橡胶品,和大圆柱体的颜色一样,它是什么形状?”

基于标准视觉问答架构,CLEVR取得的最佳成绩是正确率68.5%,而人类的成绩为92.5%。然而,通过由RN增强的网络,我们取得了超人的水平:95.5%。

为了检查RN的普适性,我们还在不同的语言任务中测试了RN。具体来说,我们使用了bAbI套件,即一系列基于文字的问答任务。bAbI由许多故事组成,这些故事包含许多不同语句,最后引出一个问题。例如,句子可能是“桑德拉拿起足球”和“桑德拉去办公室”,问题可能是“足球在哪里?”答案当然是:办公室。

在20个bAbI任务中的18个中,经过RN增强的网络得分超过95%,类似于当前最强大的模型。值得注意的是,在某些特定任务,例如归纳方面,这种网络的得分更高。而这是那些成熟模型所无法做到的。

完整的测试结果和更多信息可以参阅这篇论文。

视觉交互网络

关系推理的另一个关键部分涉及到在现实场景中预测未来。简单来说,人类不仅可以推断出对象在哪里,还能判断接下来几秒钟、几分钟、甚至更长时间里会发生什么。举个例子,如果你对着墙踢足球,那么大脑会预测,当球撞到墙之后,将会有什么样的运动方式(球的反弹速度和你踢的力度成正比,而在大部分情况下,墙都会纹丝不动)。

这样的预测由复杂的认知系统来指导,可以实现对象及其互动过程的推理。

在这方面,我们开发了视觉交互网络(VIN),这种模型模仿了人类的这一能力。VIN能从几帧视频中推断出多个实体对象的状态,随后预测这些对象接下来的变化。这与生成模型不同,后者可以直观地“想象”视频接下来的几帧。相反,VIN关于对象的预测基于状态如何演化。

VIN包含两种机制:视觉模块和物理推理模块。它们可以将可视场景处理为一系列离散的对象,并学习其中的物理规则系统,从而预测这些对象未来会发生什么。

我们测试了VIN在各种系统上的能力,包括球的弹跳、连接至弹簧的重物,以及存在重力作用的行星系统。结果表明,VIN能准确预测,未来数百步之后对象将会发生什么。

与此前公开发表的模型,以及关系推理机制被移除的VIN相比,可以看到完整的VIN有明显更好的表现。

这两篇论文都展示了有前景的方式,来理解关系推理的挑战。它们展示了神经网络如何将世界分解成对象,判断其关系,从而获得强大的推理能力。这使得神经网络可以生成新的对象组合,对表面上看起来不同,但实际有着潜在共同关系的场景进行推理。

我们认为,这些方法是可扩展的,可应用于更多任务,有助于建立更复杂的推理模型,使我们更好地理解通用人类智力的关键组成部分,尽管我们认为这些能力是理所当然的。

相关链接

DeepMind博客原文: https://deepmind.com/blog/neural-approach-relational-reasoning/

用于简单关系推理的神经网络模块: https://arxiv.org/abs/1706.01427

视觉交互网络: https://arxiv.org/abs/1706.01433

CLEVR: http://cs.stanford.edu/people/jcjohns/clevr/

bAbl: https://research.fb.com/downloads/babi/

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-06-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据风控

Python中的结构分析pivot_table

结构分析 是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。 这个分组主要是指定性分组,定性分组一般看结构,它的重点在于...

23680
来自专栏AI研习社

不知道如何开始机器学习?这有份初学者指南!

这份指南是为了那些对机器学习感兴趣,但不知如何开始的朋友们准备的。我想大多厌倦在网上搜索大量资料的人都会有挫败感,也放弃了有人能指引他们如何入门的希望。

8020
来自专栏人工智能头条

谷歌Gorila强化学习体系解析

14740
来自专栏CSDN技术头条

谷歌Gorila强化学习体系解析

【编者按】本文根据ICML 2015第二天David Silver和Arun Nair的演讲整理。David Silver是谷歌DeepMind强化学习团队的主...

22050
来自专栏ATYUN订阅号

【学术】打开黑匣子—MIT解构神经网络工作原理

神经网络是通过分析大量的训练数据学会执行计算任务,这是人工智能近代取得的最令人印象深刻的进步,包括语音识别和自动翻译系统。 然而在训练期间,神经网络不断地调整其...

36180
来自专栏深度学习思考者

推荐算法(一)——音乐歌单智能推荐

题记:推荐引擎根据的分类根据数据源,分为基于人口统计学的(用户年龄或性别相同判定为相似用户)、基于内容的(物品具有相同关键词和Tag,没有考虑人为因素),以及...

26370
来自专栏Spark学习技巧

干货 :基于用户画像的聚类分析

70050
来自专栏小小挖掘机

推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索

强化学习在各个公司的推荐系统中已经有过探索,包括阿里、京东等。之前在美团做过的一个引导语推荐项目,背后也是基于强化学习算法。本文,我们先来看一下强化学习是如何在...

36740
来自专栏PPV课数据科学社区

机器学习算法速查卡-带表情包

虽然我以前也曾提到过这件事,因为我真的很爱表情包。我花了很多时间与朋友和家人聊天,表情包是必不可少的,否则在屏幕上看起来就会很平淡。? 我喜欢的另一件事是数据科...

388120
来自专栏牛客网

阿里机器学习七面面经

二面大哥是临时叫来的,没看过我的简历,就对简历中的项目进行探讨,讨论了一下实现的方式。

25530

扫码关注云+社区

领取腾讯云代金券