前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >告诉我我在哪?——目标级别的场景上下文预测(文末附有原文)

告诉我我在哪?——目标级别的场景上下文预测(文末附有原文)

作者头像
计算机视觉研究院
发布2019-08-05 14:33:51
1.2K0
发布2019-08-05 14:33:51
举报
文章被收录于专栏:计算机视觉战队

计算机视觉领域,利用局部特征、全局特征、深度特征以及上下文特征已经是大家习以为常的操作,尤其是前三种特征的使用,近期对上下文及显著性特征关注较多,今天和大家分享的一个技术,其也是利用了目标所在场景的上下文特征,更精确去得到目标的位置。

【导读】

上下文信息在帮助解决各种图像理解任务方面已经被证明是有效的。以前的工作集中在从图像中提取上下文信息,并利用它来推断图像中某些对象的属性。今天我们分享的,其考虑了一个逆问题,即如何从几个独立对象的属性中产生缺失的上下文信息,我们称之为场景上下文预测

这个问题很难解决,因为它需要对自然场景中不同对象之间复杂多样的关系有广泛的了解。于是提出了一种卷积神经网络,它以几个独立对象的属性(即类别、形状和位置)作为输入,预测对象级场景布局,对给定对象所在的场景上下文的语义和结构进行严密编码。

最终定量实验和用户研究表明,与基线方法相比,新提出的模型能够生成更可信的场景上下文。最后还演示了新模型允许从部分场景布局中合成真实场景图像,并在内部学习用于场景识别的有用特征。

背景介绍

场景上下文是指感兴趣的对象与周围环境的关系。语境信息在现代计算机视觉系统中起着重要的作用。最近的工作利用场景上下文来改进目标检测、识别和分割:

  • [1] H. Hu, J. Gu, Z. Zhang, J. Dai, and Y. Wei. Relation networks for object detection. In CVPR, 2018.
  • [2] Y. Liu, R. Wang, S. Shan, and X. Chen. Structure inference net: Object detection using scene-level context and instancelevel relationships. In CVPR, 2018.
  • [3] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A.Efros. Context encoders: Feature learning by inpainting. In CVPR, 2016.

先前的工作试图利用图像中存在的上下文信息来推断图像中某些感兴趣的对象的属性。然而,一个未探索的问题是预测图像中某些对象的未知上下文(即,预测丢失对象的内容和位置)。考虑到几个前景物体,人类凭借对视觉世界的广泛的常识知识,能够很好地推断出他们未知的整个场景背景。例如,给出相框中的前景对象(如下图所示),我们可以推断出围绕它的多个可信环境。给定对象的属性提供了有关场景环境的强烈提示,以及其他对象可能出现在场景中的内容和位置。

因此,作者对机器是否能够复制这样的场景上下文推理能力这一基本问题感兴趣。相信机器预测物体在哪里的能力可以帮助很多场景的生成和识别任务。然而,由于自然场景中包含着丰富的语义对象,它们之间具有复杂的空间关系,因此开发场景上下文预测模型具有一定的挑战性。对象可以位于不同的位置,具有不同的尺度和形状。此外,这个问题本质上是模棱两可的,因为相同的对象可能有多个语义上合理的场景上下文。

相关工作

Modeling scene context

图像的上下文包含关于对象和场景彼此相关的丰富信息。认知科学研究显示出了背景信息在人类中起着至关重要的作用,尤其在视觉识别领域。有许多类型的上下文信息,包括:

可视上下文[N. Dvornik, J. Mairal, and C. Schmid. Modeling visual context is key to augmenting object detection datasets. In ECCV,2018.],全局场景上下文[A. Torralba, K. Murphy, and W. Freeman. Using the forest to see the trees: Object recognition in context. Comm. of the ACM, 2010.]、相对位置[C. Desai, D. Ramanan, and C. C. Fowlkes. Discriminative models for multi-class object layout. IJCV, 95(1):1–12, 2011.]和布局[A. G. Schwing, S. Fidler, M. Pollefeys, and R. Urtasun. Box in the box: Joint 3d layout and object reasoning from single images. In ICCV, 2013. ]。

随着深度学习,许多任务现在正在开发上下文信息,以学习视觉特征并提高视觉理解性能。一方面,语境对于特征学习是必不可少的。例如,Pathaketal提出了一种用于学习高级的上下文编码器,图像在绘画中的语义特征。另一方面,已经证明上下文在许多视觉任务中是有效的,例如识别、检测和分割。还可以组合多个上下文以提高性能。Choi等人就提出了一种利用多个上下文的图形模型来识别场景中的非上下文对象.。Izadia等对场景类别进行编码,对象的上下文特定外观及其布局学习场景结构。Chien等人建立了一个ConvNet,预测行人在某一位置的概率图像中的位置。Wang等使用了变分法自动编码器显示场景中存在合理不存在的人体姿态的可能性。所有这些作品都使用图像的现有上下文作为原因的附加提示关于感兴趣的前景对象的属性。

今天分享的目标与以前的工作有根本的不同。从概念上讲,在给定的前景对象中,试图解决一个逆问题,即从属性推断缺少的场景上下文。

Unsupervised representation learning via context prediction

在无人监督的情况下已经做出了一些努力通过上下文预测学习视觉表示。所需的Skip-gram模型通过预测单个单词的周围单词来学习单词表示。Doersch等人通过预测图像中的面片的相对位置来学习图像表示(即空间上下文)。Vonrick等人获悉在未标记视频的将来帧(即时间上下文)中预测视觉表示。

在新技术的工作中,最终目标不是视觉表示学习,是对一些独立对象的周围环境的预测。

Context-based image manipulation

许多作品研究了如何在图像处理任务中使用上下文。有些作品使用上下文作为先前检索和组合资产的前提。Tan等人利用CNN捕捉个人构成的背景。通过联合编码前景对象和背景场景的上下文,赵等学习了基于给定背景图像的兼容前景对象检索的特征表示。然而,生成的图像的质量取决于检索数据库。检索到的资产可能无法满足用户的要求并产生不现实的组合。其他作品将语境表示为场景布局,并学习了生成网络来操纵合成图像。

这些方法的一个主要缺点是它们需要完整的语义布局或文本描述作为输入。我们的场景上下文预测模型只需要用户提供包含少量对象的部分语义布局,我们的方法就可以生成各种可能的场景布局,用于合成真实的全场景图像。因此,我们的模型可以被认为是对现有图像合成方法的补充。

新模型

目标是开发一个深度神经网络,它以一个或多个独立对象的属性作为输入,生成对象周围的场景上下文,其中包含可能与给定对象同时发生的其他对象。如下图所示,使用对象级语义布局对输入对象和预测场景上下文进行编码,该语义布局可以简洁地描述场景布局中对象的类、形状和位置。

Training

由于上下文预测的复杂性,很难直接对新模型端到端进行训练。因此,首先对类别分类器进行预训练,以获得对象嵌入特征。然后一起训练所有的模块。

对于区域生成器,定义如下:

由于大多数生成的边界框不覆盖任何ground truth对象,所以引入了类重新平衡函数λ(x),以防止模型预测大多数边界框的零置信度分数。当λ(x)=1时,x=1,当λ(x)=0时,x=0.1。

对于形状发生器:

对于形状判别器:

实验结果

新模型和基线的定性结果。给定输入对象布局(每列中的左图),其中包含一个或两个独立对象,使用新模型(每列的中间图)和基线(每列中的右图)生成输出场景布局。

Quantitative Evaluation

我们利用对象成对关系Priors对生成的场景布局的合理性进行了定量的评价,并在室内场景合成中得到了广泛的应用。特别地,从自然场景图像的数据集计算对象类之间的成对关系的概率,并评估每个生成的场景布局在度量其质量的概率下的可能性。

上表比较了新模型与基线的性能。在这两个指标中,新方法都比基线好得多。这再次证实了与基线相比,新方法在预测可信和合适的场景上下文方面具有优越的性能。

在上图,展示了部分语义布局和草图产生的一些图像合成结果。可以看出,新方法可以从稀疏的用户输入中合成复杂的、语义上有意义的全场景图像。

论文源码地址:

http://openaccess.thecvf.com/content_CVPR_2019/html/Qiao_Tell_Me_Where_I_Am_Object-Level_Scene_Context_Prediction_CVPR_2019_paper.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档