前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SOGNet:用于全景分割的场景遮盖图网络

SOGNet:用于全景分割的场景遮盖图网络

作者头像
Amusi
发布2019-12-27 12:18:05
1.4K0
发布2019-12-27 12:18:05
举报
文章被收录于专栏:CVerCVer

本文授权转载自:ZERO实验室atPKU

本文作者:杨一博,李宏扬,李夏,赵祈杰,吴建龙,林宙辰。

本文SOGNet: Scene overlap graph network for panoptic segmentation被AAAI 2020接收。该方法同时在COCO 2019 challenge panoptic segmentation track中被评为最佳创新奖(Innovative Award)。

01

引言

在全景分割任务中,对于背景像素,需要对其进行语义分割,确定其语义类别,对于前景像素,需要对其进行实例分割,确定其实例类别以及实例id。则每个像素只能有确定的类别和id。然而,目前基于区域候选框(region proposal)的实例分割方法,例如Mask R-CNN,输出的实例结果是包含重叠区域的。如图一所示,桌子和杯子两个物体,在杯子区域具有重叠的像素。只有获得他们的前后关系,才能得到一致的全景分割结果。

图一

已有的全景分割研究中,解决遮盖问题的方法包括利用启发式规则(Panoptic FPN,AUNet等)确定各个物体的遮盖顺序,和构造panoptic head(UPSNet,OANet等)对每个像素所属的物体进行预测。但这些方法通过比较objectness score或logit的大小来确定遮盖关系,结果不够准确,并且不能显式地输出物体间的遮盖关系。

该工作受到场景图(scene graph)任务的启发,将物体的遮盖问题构造为场景遮盖图(scene overlap graph)。在这种图结构中,节点为各个物体,i和j物体间的关系包含三种,i覆盖j,i被j覆盖,以及没有覆盖关系。但是,与场景图相关的任务不同,全景分割任务并不具有物体间关系的监督信息,从而能够对物体遮盖关系直接进行监督训练。该工作通过关系嵌入(relational embedding)模块,显式地表达物体间的遮盖关系,并且设计了可微的去除被遮盖区域logit的模块。由于去除遮盖的效果对最终全景分割的质量有着直接的影响,该工作利用全景分割提供的像素级(pixel-level)的监督信息,间接地完成了对物体之间实例级(instance-level)的遮盖关系的推理。

如图二所示,该工作主要包含四个部分,分别是联合分割模块(joint segmentation),关系嵌入模块(relational embedding),遮盖去除模块(overlap resolving),以及全景分割模块(panoptic head)。

图二

02

SOGNet

1、联合分割模块

在联合分割模块中,实例分割和语义分割共享backbone,一起训练。Backbone采用目前全景分割研究中常用的方法,ResNet+FPN. 对于实例分割部分,采用标准的Mask R-CNN,利用实例分割的监督信息,完成对物体检测和分割。对于语义分割部分,采用UPSNet的方法,FPN各个尺度输出的特征首先经过三层deformable convolution, 其次上采样到统一尺度并沿channel维度拼接,最后经过1x1的卷积层输出对每个像素的类别的预测。语义分割部分利用全景分割的监督信息,预测全部类别(包括语义类别和实例类别)。

2、关系嵌入模块

对于一张输入图像,从标注信息(ground truth)中我们可以得到

,其中

,

,

分别指第i个物体的位置信息(bounding box),类别信息(one-hot形式的类别向量),和形状信息(binary mask)。

为该图像中物体的个数。在训练时,这些标注信息作为关系嵌入模块的输入,得到关系特征,进而显式地表达各个物体之间的遮盖关系。在测试时(inference),这些标注信息被替换为Mask R-CNN输出的预测。

Bilinear pooling技术可以表达两个特征构成的组合关系特征。受此启发,我们采用(Kim et al. 2017)提出的低秩外积(low-rank outer product),对各个物体的类别信息计算他们的类别关系特征:

其中,

表示逐元素相乘(element-wise multiplication),σ表示ReLU激活函数,

为两个线性映射,

将关系特征映射到输出维度

. 则所有物体的类别关系特征为:

其中,”[ ]”为拼接操作。采用相似的方式,可以得到所有物体的形状关系特征

.

对于位置信息,该工作采用一种具有平移和尺度不变性(translation- and scale-invariant)的方式,来构造位置关系特征:

其中

是从bounding box 中提取的位置和尺度信息,

将四维的相对位置特征映射到高维. 最终,所有物体之间的关系特征可以表达为:

其中

.

3、遮盖去除模块

得到所有物体之间的关系特征E后,可以显式地表示物体间的遮盖关系。如图二所示,E首先经过一个

层,得到single channel的输出,再经过sigmoid激活,并将其reshape为方阵,记为

。该矩阵的元素

具有的物理意义为第i个物体被第j个物体遮盖的势(potential)。下面可以引入遮盖关系矩阵,定义为:

其中,

是一个反对称矩阵,计算各个对称位置上的势差,σ为ReLU激活函数,用来过滤掉值为负的势差。这样,如果

,代表第i个物体被第j个物体所覆盖,并且在其对称位置上,必有

. 如果

,则代表着第i和第j两个物体没有覆盖关系。

利用每张图片各个物体的标注的位置信息,可以得到他们的Mask R-CNN输出的mask logits. 将这些logits进行插值到原图尺寸,记为

,他们之间具有重叠区域。利用公式(6),可以对物体i和物体j之间的遮盖区域进行处理:

其中,

为对第i个物体处理后的logits, s(∙)代表sigmoid激活,将

转变为类似binary形式的mask. 如图三所示,

计算他们的遮盖区域。

的值可以控制遮盖区域的logits是否从A_i中去除。当

>0时,

=0, 对

没有影响,反之亦然。

图三

考虑所有其他物体对物体i的遮盖关系,可以通过公式(7)来处理:

考虑所有物体,整个计算步骤可以表达为:

其中,

,

表示第三个维度上的Tucker product, 即将

reshape为

, 与

做内积,之后再reshape为

. 可以看出,该步骤对当前深度学习框架比较友好,可以通过可微的步骤,对遮盖区域进行处理。

4、全景分割模块

在全景分割分支上,和UPSNet相似,将语义分割分支上物体i相关位置对应channel的logits,记为

, 与

相结合。在UPSNet中,他们直接相加,记为Panoptic Head 1。SOGNet提出了改进的结合方式,记为Panoptic Head 2。两种方式对比如下:

其中,

为结合后的logits,

为一常数用来平衡语义输出logits和mask logits之间的数值尺度。

全景分割分支对每个像素的实例id做预测,并采取标准交叉熵作为损失函数。可以看出,我们的方法利用全景分割的监督信息,间接地训练了关系嵌入、遮盖去重模块。训练完成后,利用关系矩阵

, 即可获得物体间的遮盖关系。

除此之外,尽管在训练时我们不知道两个物体中哪一个物体遮盖另一个,但根据他们的binary mask

, 可以推断出这两个物体间是否有遮盖。我们引入一个对称矩阵定义如下:

其中,|·|通过求和计算binary mask的面积,指示函数当条件成立时为1. 当

时,代表物体i和j之间有显著的遮盖。进而引入如下关系损失函数:

当两物体有显著的遮盖时,促使

接近于1,从而避免在公式(6)中完成遮盖去除时,只能起到微弱的作用。

03

实验

在表一中,我们将SOGNet与UPSNet进行详细的对比。我们把UPSNet和SOGNet在同一实验环境下进行训练,采用一致的训练和测试策略。可以看出,我们改进的全景分割模块具有更好的表现。在UPSNet中,构造了一个void channel用来预测未知类别。使用未知类别预测时,SOGNet具有1% PQ的提升;不使用时,具有1.5% PQ的提升。

Tab 1:CompareSOGNet with UPSNet on COCO val.

在表二中,我们将SOGNet与启发式的方法进行对比。PlainNet为我们在同一实验环境下只训练联合分割模块得到的模型,并采用启发式规则得到全景结果。类别先验强制规定了某些类别之间的遮盖关系。SOGNet相比这些启发式方法,能够根据位置、类别、形状可微地推理遮盖关系,并且具有更好的性能。

Tab 2: Compare SOGNet with heuristic inference.

在表三和表四中,我们将SOGNet的表现与State-of-the-art的方法进行比较。表三列出了在COCO测试集上的结果,其中第一块是COCO 2018 challenge的前三名。可以看出,SOGNet能够取得目前单模型的最好性能。表四列出了在Cityscapes和COCO验证集上的结果,可以看出,SOGNet同样取得了优异表现。

Tab 3: Compare SOGNet with SOTA performances on COCO test-dev.

Tab 4: Compare SOGNet with SOTA performances on COCO and Cityscapes val.

如图四所示,我们可视化了由SOGNet学习出的物体间的遮盖关系。右边的激活图是对关系矩阵O的可视化,在(i, j)处的激活O_ij,代表着第i个物体被第j个物体所覆盖。可以看出SOGNet较为准确地表达了物体间的遮盖关系,比如:baseball glove遮盖person,tie遮盖person,然后person再遮盖bus,spoon遮盖cup,然后cup再遮盖dining table.

图四

相关链接

项目主页:

https://zero-lab-pku.github.io/publication/lixia/aaai20_sognet_scene_overlap_graph_network_for_panoptic_segmentation/

论文地址:

https://arxiv.org/pdf/1911.07527.pdf

COCO 2019 challenge slides:

https://drive.google.com/file/d/1JCgIqr5-4PUh1WIpiHaTLWGDqv8M-xP_/view

代码将发布于:

https://github.com/LaoYang1994/SOGNet

相关论文

[1] Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, Mask r-cnn. In ICCV, 2017.

[2] Jin-Hwa Kim, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha and Byoung-Tak Zhang, Hadamard product for low-rank bilinear pooling. In ICLR, 2017.

[3] Alexander Kirillov, Ross Girshick, Kaiming He and Piotr Dollar, Panoptic feature pyramid networks. In CVPR, 2019.

[4] Alexander Kirillov, Kaiming He, RossGirshick, Carsten Rother and Piotr Dollar, Panoptic segmentation. In CVPR, 2019.

[5] Justin Lazarow, Kwonjoon Lee, Kunyu Shi and Zhuowen Tu, Learning instance occlusion for panoptic segmentation. arXiv preprint arXiv:1906.05896.

[6] Qizhu Li, Anurag Arnab and Philip H.S.Torr, Weakly-and semi-supervised panoptic segmentation. In ECCV, 2018.

[7] Jie Li, Allan Raventos, Arjun Bhargava, Takaaki Tagawa and Adrien Gaidon, Learning to fuse things and stuff. arXiv preprint arXiv:1812.01192.

[8] Yanwei Li, Xinze Chen, Zheng Zhu, Lingxi Xie, Guan Huang, Dalong Du and Xingang Wang, Attention-guided unified network for panoptic segmentation. In CVPR, 2019.

[9] Huanyu Liu, Chao Peng, Changqian Yu, Jingbo Wang, Xu Liu, Gang Yu and Wei Jiang, An end-to-end network for panoptic segmentation. In CVPR, 2019.

[10] Sanghyun Woo, Dahun Kim, Donghyeon Cho and In So Kweon, Linknet: Relational embedding for scene graph. In NeurIPS, 2018.

[11] Yuwen Xiong, Renjie Liao, Hengshuang Zhao, Rui Hu, Min Bai, Ersin Yumer and Raquel Urtasun, Upsnet: A unified panoptic segmentation network. In CVPR, 2019.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档