学界 | 标题党太吓人?这篇文章会告诉你DeepMind关系推理网络的真实面貌

每当DeepMind发表一篇新论文时,媒体都会狂热的跟踪报道,而且会使用很多误导人的短语。比如关于该关系推理网络的报道:

DeepMind开发了一种神经网络,能够感知其周围的物体。

实际上这种报导不仅仅是误导性的,而且使得很多不明真相的吃瓜群众感到恐慌:AI真的已经强到如此地步了吗?在这篇文章中,将介绍DeepMind论文:A simple neural network module for relational reasoning,试着通过最简单的方式介绍这个最新的架构。

什么是关系推理?

从最简单的角度来说,关系推理就是学着去理解不同物体之间的关系(思想)。这种能力被认为是智能的一个基本特征。作者使用了一个图来解释什么是关系推理:

图1,模型需要关注一个不同形状、大小、颜色的物体,并能够回答关于多个物体之间关系的问题

推理网络

作者提出了一种神经网络,其本质是为了捕捉关系(就像卷积神经网络是为了捕捉图像的特征)。他们提出了一个如下定义的架构:

等式1:推理网络的定义

解释:

对O的关系网络是函数fΦ,其中O是想要学习关系的一组物体。

gθ是关于两个物体:oi, oj的方程。输出为我们所关心的“关系”。

Σ表示计算所有可能的物体对,计算他们的关系并加和。

神经网络与函数

在学习神经网络,反向传播等的时候,我们很容易忘记这点,但实际上,神经网络就是一个数学函数!因此,上面等式1描述的就是一个神经网络,更准确的说是两个神经网络:

1. gθ,计算了一对物体之间的关系

2. fΦ,计算了所有g的加和,并计算了整个模型的最终输出

gθ和fΦ在最简单的情况下都是多层感知机。

关系神经网络的灵活性

作者提出了关系神经网络作为组件。他们可以接受编码过的物体作为输入,并从中学习关系,更重要的是,他们可以很容易的插入到卷积神经网络,以及长短期记忆网络(LSTM)中。

卷积网络可以通过图像学习到物体。这对于实际应用有很大帮助,因为从图像中推理远比用户手工定义物体数组更实用。

LSTM和单词嵌入何以用来理解问题的含义。这同样更有实际意义,目前模型已经可以接受英文句子作为输入,而不是编码的数组。

作者提出了一种方法将关系网络、卷积网络、LSTM网络结合到一起,构建了一种端到端的神经网络,以学习物体之间的关系。

图2:端到端关系推理神经网络

图2的解释

图像会通过一个标准卷积神经网络(CNN),在这个过程中卷积神经网络会通过k个滤波器提取图像特征。推理网络中的“物体”即是图中网格每点的特征向量。例如,途中黄色的向量就代表一个“物体”。

问题会通过一个LSTM网络,这会产生该问题的特征性向量。可以粗略地表示这个问题的“含义”。

对于等式1,这里有一个轻微的修正,加入了一个额外的项:

额外的一项q,表示LSTM的最终状态。

在这之后,从CNN网络中得到的“物体“以及从LSTM网络中得到的向量被用来训练关系网络。每个物体对,以及从LSTM中得到的问题向量都被用作gθ(一个神经网络)的输入。

将gθ的输出求和,作为fΦ(另一个神经网络)的输入。然后优化fΦ以回答问题。

Benchmarks

作者在几个数据集上展示了该模型的有效性。这里只介绍一个最重要的数据集中的结果—CLEVR数据集。

CLEVR数据集包括不同形状、大小和颜色的物体的图像。模型会被问到如下图的问题:

这个立方体的材质与这个圆柱体的材质一样吗?

图3:物体的类型(上),位置组合(中&下)

作者表示,在准确度方面,其他系统都远远落后于他们的模型。这是由于关系网络就是为捕捉关系而设计的。他们的模型达到了前所未有的96%+的准确度,相比之下,使用stacked attention模型的准确度只有75%。

图3.1 CLEVR数据集上不同方法的比较

结论

关系网络机器适合于学习关系。该方法可以高效地使用数据。同时该方法也足够灵活,可以与CNN,LSTM一起作为一个混合解决方案。

本文也想通过正确的解读,来打破许多大型媒体关于“AI将会接管一切”的宣传,让大家正确的了解目前最好的方法能够做到什么程度。

本文由AI科技评论编译,欲进一步了解,请阅读原文。

原文地址:https://hackernoon.com/deepmind-relational-networks-demystified-b593e408b643

论文地址:https://arxiv.org/pdf/1706.01427.pdf

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【干货】IJCAI:深入浅出讲解深度生成模型(115 PPT)

【新智元导读】本文是IJCAI 2018的深度生成模型tutorial,作者是斯坦福大学PH.D Aditya Grover,长达115页的slides非常详尽...

682
来自专栏null的专栏

图解机器学习总结——1、基本概念

序言:近期主要帮同事讲解《图解机器学习》,刚拿到这本书觉得内容相比较平常使用的机器学习算法,很多地方讲解得比较奇怪,在认真的读完后,觉得还是有很多重要的东西,因...

3928
来自专栏量子位

一文看懂迁移学习:怎样用预训练模型搞定深度学习?

瀚宸 编译自 Analytics Vidhya 量子位 出品 | 公众号 QbitAI 引言 跟传统的监督式机器学习算法相比,深度神经网络目前最大的劣势是什么?...

3095
来自专栏机器之心

10 大深度学习架构:计算机视觉优秀从业者必备(附代码实现)

选自Analytics Vidhya 作者:FAIZAN SHAIKH 机器之心编译 参与:路雪、李亚洲、黄小天 近日,Faizan Shaikh 在 Ana...

2608
来自专栏磐创AI技术团队的专栏

机器学习中常用优化算法介绍

311
来自专栏新智元

【神经网络为什么过拟合?】理解深度学习需要重新思考“记忆”

【新智元导读】之前 Bengio 等人在 ICLR-17 提出了“理解深度学习需要重新思考泛化”这一观点,相关论文也被选为 ICLR-17 的最佳论文之一。这一...

3438
来自专栏汪毅雄的专栏

机器学习之回归(二):广义线性模型(GLM)

本文在上篇线性回归的基础上,延伸到广义线性模型,并把广义线性模型目的、假设条件来源,指数族分布、连接函数等各个函数的关系都进行详细地解释。最后用两个常见的 GL...

7621
来自专栏新智元

吴恩达计算机视觉课程12大要点,如何赢得计算机视觉竞赛

来源:towardsdatascience.com 编译:马文 【新智元导读】本文作者最近在Coursera上完成了吴恩达的深度学习系列课程的第四门课“卷积神经...

34713
来自专栏AI科技评论

视频 | 神经网络平常都在做些啥?可视化特征解释了一下

来源/ Arxiv Insights 翻译/ 龙翔 校对/ 凡江 整理/ 廖颖 喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arx...

35310
来自专栏机器人网

【深度】一图看完深度学习架构谱系图

金成勳在 GitHub 上梳理出的谱系图如下,小编在此基础上对各个分支网络做了介绍、补充,希望对读者了解网络体系间的关联有所帮助。如有缺陷,欢迎大家留言补充。 ...

2505

扫描关注云+社区