李飞飞团队最新论文:如何对图像中的实体精准“配对”?

编译 | 费棋

【导语】近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Referring Relationships(指称关系),这篇论文主要研究的问题是给出一张图像中实体的关系网络,从而让 AI 迅速定位出某一主体所对应的客体,或者某一客体所对应的主体。

以下内容来自 Referring Relationships 论文,AI科技大本营摘译:

图像不仅仅是对象集合,每个图像都代表一个互相关联的关系网络。实体之间的关系具有语义意义,并能帮助观察者区分实体的实例。例如,在一张足球比赛的图像中,可能有多人在场,但每个人都参与着不同的关系:一个是踢球,另一个是守门。

在本文中,我们制定了利用这些“指称关系”来消除同一类别实体之间的歧义的任务。我们引入了一种迭代模型,它将指称关系中的两个实体进行定位,并相互制约。我们通过建模谓语来建立关系中实体之间的循环条件,这些谓语将实体连接起来,将注意力从一个实体转移到另一个实体。

我们证明了我们的模型不仅好于在三种数据集上实现的现有方法--- CLEVR,VRD 和 Visual Genome ---而且它还可以产生视觉上有意义的谓语变换,可以作为可解释神经网络的一个实例。最后,我们展示了将谓语建模为注意力转换,我们甚至可以在没有其类别的情况下进行定位实体,从而使模型找到完全看不见的类别。

▌指称关系任务

指称表达可以帮助我们在日常交流中识别和定位实体。比如,我们能够指出“踢球人”来区分“守门员”(图 1)。在这些例子中,我们都可以根据他们与其它实体的关系来区分这两人。 当一个人射门时,另一个人守门。 最终的目标是建立计算模型,以识别其他人所指的实体。

图1:指称关系通过使用实体间的相对关系来消除同一类别实例之间的歧义。给出这种关系之后,这项任务需要我们的模型通过理解谓语来正确识别图像中的踢球人。

指称关系任务的结构化关系输入允许我们评估如何明确地识别图像中同一类别的实体。我们在包含视觉关系的三个视觉数据集上评估我们的模型 2:CLEVR,VRD 和 Visual Genome 。这些数据集中 33%、60.3% 和 61% 的关系是指不明确的实体,也即指具有相同类别的多个实例的实体。我们扩展了模型,使用场景图的关系来执行注意力扫视。最后,我们证明,在没有主体或客体的情况下,我们的模型仍然可以在实体之间消除歧义,同时也可以定位以前从未见过的新类别。

▌指称关系模型

我们的目标是通过对指称关系的实体进行定位,从而使用输入的指称关系来消除图像中的实体歧义。 形式上而言,输入是具有指称关系的图像 I,R = <S - P - O>,它们分别是主体,谓语和对象类别。 预计这个模型可以定位主体和客体。

▌模型设计

我们设计了一个迭代模型,学习如何在视觉关系中使用谓语来操作注意力转移,这受到了心理学中移动聚光理论的启发。给出足球的初始估值后,它会学习踢球的人必须在哪里。同样,如果对人进行估值,它将会学习确定球的位置。通过在这些估值之间进行迭代,我们的模型能够专注于正确实例,并排除其它实例。

图 2:指称关系的推理首先要提取图像特征,这是用于生成主体和客体的基础。接下来,这些估值可以用来执行转换注意力,注意力使用了从主体到我们所期望客体位置的谓语。在对客体的新估值进行细化的同时,我们通过关注转换区域来修改图像特征。同时,我们研究了从初始客体到主体的反向移位。通过两个预测移位模块迭代地在主体和对象之间传递消息,可以最终定位这两个实体。

▌实验

我们在跨三个数据集的指称关系中评估模型性能来进行实验操作,其中每个数据集提供了一组独特的特征来补充我们的实验。 接下来,我们评估在输入指称关系中缺少其中一个实体的情况下如何改进模型。 最后,通过展示模型如何模块化并用于场景图注意力扫视来结束实验。

以下是我们在 CLEVR、VRD 和 Visual Genome 上的评估结果。 我们分别标出了对主题和对象定位的 Mean IoU 和 KL 分歧:

在三种测试条件下缺少实体的指称关系结果:

图 3:(a)相对于图像中的主体,当使用<subject - left - of object>关系来查找客体时,左边的谓语会把注意力转移到右边。相反,当使用物体找到主体时,左侧的逆谓语会将注意力转移到左侧。在辅助材料中,我们可视化了 70 个 VRD、6 个 CLEVR 和 70 个 Visual Genome 的谓语和逆谓语转化(b)我们还看到,在查看用于了解它们的数据集时,这些转换是直观的。

图 4:这是 CLEVR 和 Visual Genome 数据集的注意力转移如何跨越多次迭代的示例。在第一次迭代时,模型仅接收试图找到以及尝试定位这些类别中所有实例的实体信息。在后面的迭代中,我们看到谓语转换注意力,这可以让我们的模型消除相同类别的不同实例之间的歧义。

图 5:我们可以将我们的模型分解成其注意力和转换模块,并将它们堆叠起来作为场景图的节点。 在这里,我们演示了如何使用模型从一个节点(手机)开始,并使用指称关系来通过场景图连接节点,并在短语<拿电话的人旁边有人身穿夹克>中定位实体。 第二个例子是关于<在戴帽子的人的右边有个人一张桌子前>中的实体。

▌结论

我们介绍了指称关系的目的,其中我们的模型利用视觉关系来消除了同一类别实例之间的歧义。我们的模型学习去迭代地使用谓语作为一种关系里,两个实体之间的注意力转换。它通过分别对主体和客体的先前位置进行预测,来更新其关于主体和客体的位置信息。我们展示了 CLEVR,VRD 和 Visual Genome 数据集的改进,证明了我们的模型产生了可解释的谓语转换,使我们能够验证模型实际上是在学习转移注意力。通过依赖部分指称关系以及如何将其扩展到场景图上执行注意力扫视,我们甚至展示了如何使用我们的模型来定位完全看不见的类别。指称关系的改进可能为视觉算法探测未见的实体铺路,并学习如何增强对视觉世界的理解。

相关代码:

https://github.com/StanfordVL/ReferringRelationships

论文链接:

https://arxiv.org/pdf/1803.10362.pdf

作者:Ranjay Krishna , Ines Chami, Michael Bernstein, Li Fei-Fei 原文链接: https://cs.stanford.edu/people/ranjaykrishna/referringrelationships/index.html

本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平

选自Analyticsvidhya 作者:Shivam Bansal 机器之心编译 参与:黄小天、李亚洲、Smith 近日,analyticsvidhya 上出...

50280
来自专栏CVer

[计算机论文速递] 2018-04-11

PS:Amusi前几天在忙其它事,论文速递耽搁了近一个星期,还请大家见谅。因为时间因素,和往常一样,每篇paper不附带相应的图示。如果本文中出现明显重大的翻译...

40860
来自专栏大数据文摘

能模仿韩寒小四写作的神奇递归神经网络(附代码)

51750
来自专栏IT派

GANs很难?这篇文章教你50行代码搞定(PyTorch)

量子位编译自Medium,作者Dev Nag,数据可视化分析平台Wavefront创始人、CTO,曾是Google、PayPal工程师。

14420
来自专栏CVer

[计算机视觉论文速递] 2018-03-07

通知:这篇推文有18篇论文速递信息,涉及目标检测、图像分割和GAN等方向。 [1]《A new stereo formulation not using pix...

52490
来自专栏量化投资与机器学习

Python机器学习:数据拟合与广义线性回归

谢谢大家支持,可以让有兴趣的人关注这个公众号。让知识传播的更加富有活力,谢谢各位读者。 很多人问博主为什么每次的头像是奥黛丽赫本,因为她是博主女神,每天看看女神...

48370
来自专栏SimpleAI

【DL笔记10】迁移学习——光明正大“窃取”他人成果

从【DL笔记1】到【DL笔记N】,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结而来。从基本的概念、...

37430
来自专栏专知

【深度干货】专知主题链路知识推荐#5-机器学习中似懂非懂的马尔科夫链蒙特卡洛采样(MCMC)入门教程01

【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

46770
来自专栏人工智能头条

用深度学习做个艺术画家 ——模仿实现PRISMA

24640
来自专栏人工智能LeadAI

《机器学习基石》课程学习总结(二)

01 寻找函数g的pocket算法 前文提到,PLA算法有效的前提是D要是线性可分的,D中的数据可以看做由f产生而来。这样的假设过于理想化,现实中,D里面总会...

40360

扫码关注云+社区

领取腾讯云代金券