专栏首页量子位这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI

保安,保安!抓住那个砸玻璃的人!

对于人类保安来说,理解这个指令是自然而然毫无难度的事。但机器就不一样了:它们能从画面中认出人人人人人,但究竟哪一个才是“砸玻璃的人”呢?

李飞飞领导的斯坦福视觉实验室即将在CVPR 2018上发表的一篇论文Referring Relationships,研究的就是这个问题。

这篇论文提出的“指称关系”任务,是给计算机一个“主-谓-宾”结构的“关系”描述和一张图,让它能将主体(主语对应的那个东西)和客体(宾语对应的那个东西)定位出来。

比如说:

他们要让计算机在这样一个场景中,根据“person - kicking - ball(人在踢球)”这个描述,定位出“踢球的人”和“球”,根据“person - guarding - goal(人在守门)”这个描述,定位出“守门的人”和“球门”。

正确圈出主体和客体,计算机内心需要经历这样一个过程:

如上图所示,整个过程的第一步是用CNN提取图像特征,供算法用来对主体和客体分别进行初步定位。

不过,不是所有的主体和客体都那么容易找出来,比如说人很好识别,但球门就不一定了。几位研究员所用的方法,是先找到主客体之间的关系,这样只要定位出其中一个,就很容易找到另一个。

在这个过程中需要对谓语建模,也就是搞清楚 对主客体关系的描述。他们把谓语看作主体和客体之间的注意力移动,借此找出主客体之间的关系。

从上面的流程图我们也可以看出,根据主体和构建出来的关系描述,可以推断出来注意力转移到的区域,找到客体应该在的位置,并据此修改图像特征。也可以根据注意力转移,从客体推断出主体位置。这个过程,称为predicate shift。

运用predicate shift过程在主体和客体之间反复传递消息,最终就能将这两个实体定位出来

“某人在另一个某人的左边”,这种描述中的两个人,也可以用这种方法定位出来。

“拿着杯子的人”、“站在滑板上的人”等等也都没问题。

李飞飞团队在CLEVR、VRD和Visual Genome三个视觉关系数据集上评估了自己的模型,成绩如下:

想要了解更多细节,请进入亲自读论文撸代码环节~

论文:https://arxiv.org/abs/1803.10362

Keras+TensorFlow实现:https://github.com/StanfordVL/ReferringRelationships

根据斯坦福视觉实验室主页介绍,他们在CVPR 2018上总共发表了三篇论文,除了量子位今天介绍的这一篇之外,还有:

  • What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets De-An Huang, Vignesh Ramanathan, Dhruv Mahajan, Lorenzo Torresani, Manohar Paluri, Li Fei-Fei, and Juan Carlos Niebles CVPR 2018 (spotlight)
  • Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, and Juan Carlos Niebles CVPR 2018 (oral)

这两篇论文的PDF版还未放出,量子位还会继续关注哒。

作者系网易新闻·网易号“各有态度”签约作者

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自动驾驶科普:一辆无人车到底是怎样工作的?

    安妮 编译自 Medium 作者:David Silver 量子位 出品 | 公众号 QbitAI 你可能对“自动驾驶”一词并不陌生了,但是否知道无人车是怎样在...

    量子位
  • DeepMind提出训练网络新方法,快速找到最佳超参数和模型

    安妮 编译自 DeepMind官方博客 量子位 出品 | 公众号 QbitAI 从围棋到雅达利游戏、再到图像识别和语言翻译,神经网络在各领域已经崭露头角。 一直...

    量子位
  • CVPR出了篇满分论文!中国小哥用人话为机器人导航,5000多篇论文里夺魁

    这篇论文,来自加州大学圣巴巴拉分校(UCSB)和微软研究院,题为Reinforced Cross-Modal Matching and Self-Supervi...

    量子位
  • Redis过期策略以及内存淘汰机制

    如果你的 Redis 只能存10G数据,你写了12G,那么 Redis 会怎么淘汰那2G数据呢?

    ITer.996
  • 大话设计模式--第二章 策略设计模式

    现在有一个需求: 给商场做一个收银软件. 营业员根据客户购买的产品的单价和数量, 向客户打印小票。

    用户7798898
  • Redis的过期键删除策略和数据逐出策略

    在实际生产环境中使用Redis时,偶然会觉得Redis的内存占用要比自己预想的大。事实上,Redis占用的内存除了保存键值对所需的开销外,还有一些运行时产生的额...

    全菜工程师小辉
  • 快速查看磁盘里各目录的大小分布

    wuweixiang
  • Django框架models使用group by详解

    另外,在Django中order_by(‘hour’)表示按生序排列,若要按降序排列,则使用order_by(‘-hour’)

    砸漏
  • 概率论11 协方差与相关系数

    前面介绍的分布描述量,比如期望和方差,都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。 ...

    Vamei
  • 刷剧不忘学习:用Faster R-CNN定位并识别辛普森一家中多个人物

    王小新 编译自 Medium 量子位 出品 | 公众号 QbitAI Alexandre Attia是《辛普森一家》的狂热粉丝,在之前他已经写了一篇用卷积神经网...

    量子位

扫码关注云+社区

领取腾讯云代金券