DeepMind两篇新论文研究用神经网络做关系推理，探索人类智慧核心

量子位

发布于 2018-03-29 17:44:58

9580

发布于 2018-03-29 17:44:58

文章被收录于专栏：量子位

陈桦编译自 DeepMind官方博客作者 Adam Santoro, David Raposo, Nick Watters 量子位报道 | 公众号 QbitAI

关系推理是什么？DeepMind举了这么几个例子：

阿加莎·克里斯蒂小说的读者一点点地拼凑证据猜测犯人；小朋友追到球的前边防止它滚进河里；在市场上买东西的人做各方面的比较，挑选猕猴桃或者芒果。

最近，这家公司发表了两篇论文，探讨了神经网络如何用非结构化数据进行复杂关系推理，并在官方博客上对这个研究课题和两篇论文进行了介绍。

以下是DeepMind官方博客上的文章，量子位编译：

我们会将世界分割成事物之间的关系。通过对不同事物，例如实体对象、语句，甚至抽象概念之间的关系得出逻辑结论，我们就可以理解世界的运转方式。这种能力被称作关系推理，是人类智慧的核心。

通过每天获得的非结构化感官信息，我们建立起这样的关系。例如，我们的眼睛接受了大量光子，而大脑则将这些混乱的信息组成为我们需要关联在一起的特定实体。

如果希望人工智能系统具备类似人类认知能力的灵活性和效率，那么关键挑战在于，从非结构化数据中推断出实体及其之间的关系。这个问题的解决将使系统可以生成新的实体组合，基于有限的方法获得无限的用途。

当代深度学习方法已经在处理非结构化数据方面取得了巨大进展。然而，这些方法往往没有明确考虑对象之间的关系。

在两篇新论文中，DeepMind探讨了深度神经网络利用非结构化数据进行复杂关系推理的能力。在第一篇论文，《用于简单关系推理的神经网络模块》中，我们描述了一种关系网络（RN），并证明其可以在具有挑战性的任务中实现超人的水平。在第二篇论文，《视觉交互网络》中，我们描述了一种通用模型，可基于视觉观察来预测实体对象的未来状态。

用于简单关系推理的神经网络模块

为了更深入地探索关系推理的概念，并测试能否以简单的方式将其集成至现有系统中，我们创建了一个简单的、即插即用的RN模块，并将其添加到现有神经网络体系结构中。一个经过RN增强的网络可以接受非结构化的数据输入，例如图片或语句，并推断其中所包含对象的关系。

例如，一个带RN的网络可能会看到包含不同形状的场景，例如球体和立方体。为了研究它们之间的关系（例如球体比立方体更大），网络必须从图像中获取非结构化的像素流，并指出在场景中哪些像素构成了对象。神经网络并没有被告知对象的定义，必须自己得出结论。随后，这些对象的展示经过了分组（例如球体和立方体），并由RN模块进行处理。RN模块比较这些对象，建立“关系”（例如球体比立方体更大）。这些关系并不是硬编码的，必须由RN来学习，RN对所有可能的配对进行了比较。最终，RN将这些关系综合在一起，为场景中的所有图形对生成输出。

我们在几种任务中测试了这个模型，包括CLEVR，一个视觉问答任务。CLEVR设计用于研究模型完成不同类型推理，例如计数、比较和查询的能力。CLEVR由以下这样的图片构成：

每张图片都有其关联的问题，专注于场景中对象的关系。例如，关于上图的问题或许是：“这里有个小橡胶品，和大圆柱体的颜色一样，它是什么形状？”

基于标准视觉问答架构，CLEVR取得的最佳成绩是正确率68.5%，而人类的成绩为92.5%。然而，通过由RN增强的网络，我们取得了超人的水平：95.5%。

为了检查RN的普适性，我们还在不同的语言任务中测试了RN。具体来说，我们使用了bAbI套件，即一系列基于文字的问答任务。bAbI由许多故事组成，这些故事包含许多不同语句，最后引出一个问题。例如，句子可能是“桑德拉拿起足球”和“桑德拉去办公室”，问题可能是“足球在哪里？”答案当然是：办公室。

在20个bAbI任务中的18个中，经过RN增强的网络得分超过95%，类似于当前最强大的模型。值得注意的是，在某些特定任务，例如归纳方面，这种网络的得分更高。而这是那些成熟模型所无法做到的。

完整的测试结果和更多信息可以参阅这篇论文。

视觉交互网络

关系推理的另一个关键部分涉及到在现实场景中预测未来。简单来说，人类不仅可以推断出对象在哪里，还能判断接下来几秒钟、几分钟、甚至更长时间里会发生什么。举个例子，如果你对着墙踢足球，那么大脑会预测，当球撞到墙之后，将会有什么样的运动方式（球的反弹速度和你踢的力度成正比，而在大部分情况下，墙都会纹丝不动）。

这样的预测由复杂的认知系统来指导，可以实现对象及其互动过程的推理。

在这方面，我们开发了视觉交互网络（VIN），这种模型模仿了人类的这一能力。VIN能从几帧视频中推断出多个实体对象的状态，随后预测这些对象接下来的变化。这与生成模型不同，后者可以直观地“想象”视频接下来的几帧。相反，VIN关于对象的预测基于状态如何演化。

VIN包含两种机制：视觉模块和物理推理模块。它们可以将可视场景处理为一系列离散的对象，并学习其中的物理规则系统，从而预测这些对象未来会发生什么。

我们测试了VIN在各种系统上的能力，包括球的弹跳、连接至弹簧的重物，以及存在重力作用的行星系统。结果表明，VIN能准确预测，未来数百步之后对象将会发生什么。

与此前公开发表的模型，以及关系推理机制被移除的VIN相比，可以看到完整的VIN有明显更好的表现。

这两篇论文都展示了有前景的方式，来理解关系推理的挑战。它们展示了神经网络如何将世界分解成对象，判断其关系，从而获得强大的推理能力。这使得神经网络可以生成新的对象组合，对表面上看起来不同，但实际有着潜在共同关系的场景进行推理。

我们认为，这些方法是可扩展的，可应用于更多任务，有助于建立更复杂的推理模型，使我们更好地理解通用人类智力的关键组成部分，尽管我们认为这些能力是理所当然的。