基于 CNN 的深度感知 Dice 损失，在全景分割中的应用，全景质量方面再次提高！

公众号-arXiv每日学术速递

发布于 2024-05-31 21:03:10

950

发布于 2024-05-31 21:03:10

全景分割统一了语义分割和实例分割，因此为每个像素提供语义类别标签，对于所谓的“物”类别，还提供实例标签。特别是对于外观相似的同一类别的不同物体的区分是具有挑战性的，并且经常导致这些物体错误地分配给单个实例。在本文中，作者证明了可以利用观测场景的3D几何信息来缓解这个问题。作者提出了一种基于CNN的全景分割新方法，该方法在单独的网络分支中处理作为输入的RGB图像和深度图，并以晚期融合的方式融合生成的特征图。此外，作者提出了一种新的深度感知Dice损失项，它基于像素与相机相关的距离差异，惩罚将像素分配给同一个“物”实例。在Cityscapes数据集上进行的实验表明，所提出的方法减少了错误地合并为一个“物”实例的目标数量，并在全景质量方面比基础方法提高了

+2.2\%

。

1 Introduction

全景分割结合了语义分割和实例分割的任务[17]。对于一组“事物”类别，例如“汽车”，它提供了关于各个实例的信息，例如以带有类别标签的边界框和指示实例像素的二值 Mask 的形式。在实例分割中不属于“事物”实例的区域（实例分割中的“背景”）以类似于语义分割的方式分配到所谓的“物品”类别之一。对于这些类别（例如，“墙壁”），不决定实例的信息。

这个任务通常使用神经网络解决。早期的方法在后期处理中合并了实例分割和语义分割的独立方法的结果[17]。最近的方法应用了统一的策略，允许端到端训练。

Li等人（2021）通过为每个“物品”类别预测一个二值 Mask ，为每个“事物”类别的每个实例预测一个二值 Mask 和一个类别标签来实现这一目标。这避免了需要边界框 Proposal ，并允许网络以端到端的方式共同学习这两个子任务。

现有工作通常只依赖于RGB图像作为输入。图1展示了由[11]从这类图像预测的二值实例 Mask 的例子。在这个例子中，两个外观相似的“汽车”实例实际上被合并成了一个。

克服这类问题的一种方法是集成附加信息。在这项工作中，作者利用来自立体图像的“深度”作为附加输入，从而提出了一个用于深度感知全景分割的方法。

RGB和深度数据已被用于语义分割和实例分割有一段时间了，但只有少数关于全景分割利用这两种模态的工作。Narita等人（2019）仍然应用RGB图像进行全景分割，仅使用深度来估计相机姿态并生成3D地图。

Seichter等人（2022）在将输出融合以用于实例分割和语义分割之前，在深度神经网络的两个独立分支中处理深度和颜色。因此，这种方法仍然涉及两个独立的网络。

在这项工作中，作者试图克服现有方法的一些问题，做出了以下科学贡献：

作者提出了一种可以端到端训练的联合使用颜色和深度的全景分割方法。
在此背景下，作者研究了网络颜色和深度分支融合的两个不同技术。
作者提出了一种新的深度感知损失项，以减轻如图1所示的问题，利用不同“事物”实例的深度差异。
作者通过使用公开可用的基准数据集进行的实验，展示了附加信息和新的损失函数所带来的改进。

作者的方法基于[11]，作者通过增加一个额外的深度分支，将得到的特征与网络颜色分支获得特征融合，以及通过一个新的深度感知损失函数来扩展它。

2 Related Work

全景分割方法可以分为自顶向下（基于框）、自底向上（无框）和统一方法，后者也被称为单一路径方法。自顶向下和自底向上的方法在合并它们的预测结果以获得全景分割结果之前，分别独立处理语义和实例分割。

自顶向下方法遵循两阶段设计，首先估计_物_实例的边界框，然后为每个实例预测像素级的 Mask 和语义标签，例如（Kirillov等人，2019；Xiong等人，2019；Li等人，2019）。背景的语义分割通常是单独进行的。因此，性能高度依赖于估计的边界框的质量。重叠边界框的语义分割 Mask 之间以及实例与背景之间的连贯性不能保证，这需要在启发式的后处理步骤中解决冲突。

自底向上方法通过在不依赖先前估计的边界框的情况下估计语义和实例分割 Mask 来解决这一限制。例如，Cheng等人（2020）应用了区分_物质_和_物_类别的语义分割。实例 Mask 来自两个额外网络分支的输出：每个目标实例的中心点以及位于该实例上的每个像素到相应中心点的偏移量。所有网络分支可以端到端训练，但需要相当复杂的后处理步骤从原始输出中导出实例 Mask 和类别标签。

统一方法不针对语义和实例分割应用单独的网络或网络分支，而是直接解决全景分割任务，例如，同时预测物质类别和事物实例的二值 Mask 。

沿着这一策略，Li等人（2021年）提出学习两种类型的中间特征图的估计：

描述单个事物实例和物质类别的地图以及编码输入图像的地图。

第一种类型的地图用于提取滤波核，用于对第二种类型的地图进行卷积。这些卷积的结果是一组二值 Mask （每个事物实例和一个物质类别各一个）。（Li等人，2021年）的一个局限性是将外观相似的不同目标像素错误地分配给单一实例 Mask （参见图1）。de Geus和Dubbelman（2023年）认为这个问题与仅使用图像裁剪的训练过程有关，因为网络一次只能看到少量（部分可见）的目标。他们提出了一个额外的损失项，强制上述两种类型的特征图在每个图像裁剪中是不同的，假设不同的裁剪显示了不同的目标。张等人（2021年）提出了一种与（Li等人，2021年）类似的方法，以相同的方式估计并使用先前提到的两种类型的特征图。

在（Kirillov等人，2019年）的基础上，作者关注作为滤波核使用的特征图的判别能力，通过基于聚类的方法，鼓励同一类的特征相似，不同类的特征明显不同。王等人（2021年）提出了一种基于注意力的架构，包含2D像素基础和1D全局记忆路径。前者用于估计每个实例的二值分割 Mask ，后者为每个 Mask 提供语义类别标签。这两条路径通过所谓的双路径转换块密集连接，允许在两条路径之间交换信息。为了确保各个分割 Mask 之间的一致性，即图像的每个像素恰好属于一个 Mask ，对预测的分割 Mask 集的每个像素应用softmax函数。

于等人（2022年）将传统聚类方法的概念融入到 Mask Transformer 架构中，以在神经网络的早期阶段识别属于同一目标实例的像素。像素到簇的分配以及簇中心的更新和每个像素特征描述符的实现都是作为注意力层，并迭代计算。统一方法在全景分割方面取得了显著改进，也减少了为了获得一致结果而进行后处理的需要。然而，大多数方法依赖于单一的RGB图像，因此仅限于观察场景的2D信息。

为了进一步提高结果，可以利用观察场景的3D几何信息作为额外的输入。Narita等人（2019）采用一系列RGB图像和相应的深度图作为输入，以体积图的形式估计3D全景分割。首先针对序列的每一帧在2D空间进行全景分割，仅使用一个RGB图像。利用深度信息估计相应RGB图像的外部取向参数，并将基于帧的2D全景分割 Mask 组合为整个序列的体积3D表示。Wu等人（2021）提出了一种从RGB和深度数据增量估计3D场景图的方法，同时也作为副产品提供观察到的3D表面的全景分割。

通过训练图神经网络构建一个图，其中属于同一目标或目标部分的像素簇对应于节点，而边表示节点之间的几何关系。通过根据边信息组合对应于同一目标的节点，获得全景分割。在这两种方法中，深度不是用来支持全景分割本身，而只是用来融合独立估计的2D全景分割 Mask ，并将这些 Mask 从2D提升到3D。相比之下，Seichter等人（2022）同时使用RGB图像和深度图，采用编码器-解码器架构进行2D全景分割。首先，颜色和深度在两个独立的编码器分支中处理。

在不同尺度上融合提取的特征图，这可以作为晚期融合方法的例子。解码器也包括两个独立的分支，一个用于估计语义分割，另一个用于实例分割。因此，Seichter等人（2022）遵循自下而上的策略，这种策略受到前面讨论的限制。虽然深度信息用于全景分割，但深度与待估计的分割 Mask 之间的关系是通过纯粹的数据驱动方式学习的，即在训练过程中没有基于几何明确引入对分割的约束。

总之，(Li等人，2021)和(Seichter等人，2022)可以被认为是与本文提出的工作最相似的研究。作者以(Li等人，2021)作为作者工作的基础，但通过增加一个处理深度信息的额外分支以及训练中使用的损失函数进行了扩展，作者提出了一个新的深度感知项。作者集成深度的方式受到Seichter等人（2022）的启发，但作者的整体架构是不同的。此外，深度不仅仅是作为附加输入，还在损失函数中用来明确约束像素到实例 Mask 的分配。

3 Background: Panoptic FCN

为了使本文内容自洽，作者从对Panoptic FCN（Li等人，2021年）的简要总结开始。该方法使用RGB彩色图像

X^{c}\in R^{3\times H\times W}

作为输入，其中

和

分别表示图像的高度和宽度。目标是为图片中的每个像素分配一个

K^{st}

stuff 类别之一，或者分配给

N^{th}

thing 类别的一个实例。每个图像都呈现给带有Resnet50 Backbone 网络的特征金字塔网络（FPN）[17]，以提取不同尺度的特征，得到一系列特征图

P_{p}

，

p\in\{2,\ldots,7\}

，空间范围

H_{p}\times W_{p}=H/(2^{p})\times W/(2^{p})

。

FPN的输出在两个独立的分支中进一步处理：_特征编码器_ 和 _核生成器_，参见图2。

在特征编码器中，首先通过kirillov2019learning的语义FPN模块处理特征图

P_{2}

到

P_{3}

，然后通过三个连续的卷积层。最后一层的输出是一个维度为

C_{e}\times H/4\times W/4

的特征图，以适合任务的方式编码图像内容。

核生成器的输入包括FPN生成的特征图

P_{3}

到

P_{7}

。首先，每个特征图

P_{p}

独立地通过两个 Head 分进行处理，每个 Head 分由三个连续的卷积层[18]组成：_核头_ 和 位置头_。_核头 被训练以预测维度为

C_{e}\times H/4\times W/4

的 核权重 张量，该张量包含特征图

P_{p}

每个空间位置的权重向量（称为 核_）。_位置头 的最后一个卷积层的输出包括 (

N^{th}

K^{st}

) 个类别分数图，即每个类别一个（通过sigmoid函数进行归一化）。对于

K^{st}

stuff 类别，每个图包含

P_{p}

中每个像素属于对应类别的概率；应用阈值，该图被转换成指示该类别像素的二值图。对于

N^{th}

thing 类别，这些图指示像素对应于 thing 实例中心的概率。

通过将这些图应用阈值和局部非最大抑制[20]，确定实例中心。

位置 Head 的输出用于定义由核生成器输出的核。对于每个填充类，在每个尺度

上，通过计算位置头生成的二值图中分配给该类的位置上的核权重张量中的向量平均值，获得一个核，不同尺度上确定的核通过平均进行合并。对于事物类，与某一实例在尺度

相关的核是从实例中心位置的核权重张量中提取的。在不同尺度上提取的结果事物核需要被组合。

为此，如果同一事物类实例的核之间的余弦相似度超过阈值，则通过平均进行合并。这将导致有

K^{th}_{0}

个事物实例，其核和类别标签是已知的。如果

K^{th}_{0}

大于预定义的值

K^{th}_{max}

（实验中设置为100），则根据 Heatmap 中的置信度分数对核进行排序，并保留置信度最高的

K^{th}_{max}

个核，从而

K^{th}=K^{th}_{max}

。否则，

K^{th}

设置为

K^{th}=K^{th}_{0}

。核生成器的最终输出包括

K^{st}+K^{th}

个维度为

1\times C_{e}

的核，每个核都关联一个（填充或事物）类别标签。

特征编码器的输出与每个核进行卷积，每个输出通过sigmoid函数进行归一化，产生

K^{st}+K^{th}

个类别得分图，用于像素属于某个填充类或某个缩小分辨率(

H/4\times W/4

)的事物实例。与核关联的类别标签也与其对应的 Mask 关联。这些 Mask 通过双线性插值上采样以获得原始分辨率的得分，并在应用阈值后，生成

K^{st}+K^{th}

个二值 Mask ，指示像素是否属于相应的填充类或事物实例。

最后，应用后处理来消除预测的二值图之间的矛盾，类似于[19]中的方法。未被分配给任何类别或实例的像素被视为背景。结果为

K^{st}+K^{th}

个大小为

H\times W

的二值图及其相应的类别标签是最终输出。

对于训练，需要一组参考的二值 Mask ，用于填充类和事物实例。训练基于最小化损失函数

\mathcal{L}

[18]：

\mathcal{L}=\lambda_{pos}\cdot\mathcal{L}_{pos}+\lambda_{seg}\cdot\mathcal{L }_{seg}, \tag{1}

其中

\lambda_{pos}

和

\lambda_{seg}

是用于加权两个损失项的超参数。损失项

\mathcal{L}_{pos}

应用于网络位置 Head 的输出。它使用Focal Loss [18] 将每个尺度的包含类别分数的地图与参考进行对比。对于 stuff 类别的参考是由因数4降采样得到的二值 Mask 。在 thing 实例的情况下，首先为每个类别生成一个二值 Mask ，显示该类别的所有参考实例的中心。_thing_ 中心的参考通过对这个 Mask 进行模糊处理获得。因此，这个参考不是二元的。

第二个损失项

\mathcal{L}_{seg}

，应用于在分辨率

H/4\times W/4

处预测的sigmoid分数，即上采样之前。因此，在训练期间，参考地图需要以4为因数进行降采样。在训练中，并不是基于位置 Head 的预测来确定核，而是基于参考进行采样。对于 stuff 类别，在参考中相应尺度分配给该类别的区域内随机采样一个位置，并在此随机位置上采样与该尺度相关的核。对于 thing 实例，根据参考 Mask 在预测中具有最高置信度的实例内的

个像素被用来在每个尺度上提取核 [18] 使用

k=7

。这样，就可以知道哪些预测的实例 Mask 与哪些参考 Mask 相对应。

\mathcal{L}_{seg}

被建模为一个Dice损失 [19]，对比所有 stuff 类别和 thing 实例的二值 Mask 。

4 Depth-aware Panoptic Segmentation

作者首先从概述（第4.1节）开始介绍作者的深度感知全景分割方法。

之后，作者重点关注与 Baseline （参见第3节）相比的主要修改。

作者在第4.2节介绍了融合RGB和深度数据的概念，而在第4.3节描述了训练过程，引入了作者的新型深度感知dice损失。

Overview

作者的方法基于第3节中提出的全景FCN，作者对其进行了扩展，使其能够将深度图作为额外的输入。架构如图2所示，并通过红色边缘突出了作者的新贡献。输入包括一个彩色（RGB）图像

X^{c}\in R^{3\times H\times W}

和一个相应的大小相同且在同一坐标帧内给出的深度图

X^{d}\in R^{1\times H\times W}

。原则上，可以使用任何方法生成深度图；在作者的实验中，作者使用了立体匹配。作者决定采用晚期融合的方法，在这种方法中，颜色和深度图像在分别通过编码器分支处理后再进行融合，以生成作为特征编码器和核生成器输入的特征图。

关于这种融合方法的具体细节在第4.2节中介绍。对于特征编码器和核生成器，作者使用第3节中描述的架构。作者方法的输出还包括

K^{st}

个二值图，用于识别所有_stuff_类的像素和

K^{th}

个二值图，用于识别属于_thing_类实例的所有像素，在后一种情况下，还包括类别标签。

训练也基于最小化根据等式1具有两个组件的损失函数。然而，为了减轻如图1所示的问题，作者提出了一种新的深度感知Dice损失，应用于作者模型中_thing_实例的

\mathcal{L}_{seg}

损失项。训练过程和这个新的损失函数在第4.3节中解释。

Colour and Depth Fusion

Seichter等人（2021年）在相似的架构下分别处理彩色和深度图像的独立编码器分支，然后融合产生的特征。作者遵循这种_晚期融合方法_，通过在编码器中增加一个深度分支来扩展全景FCN架构。作者这样做是因为在初步实验中，这种变体比早期融合方法表现得更好，在早期融合方法中，深度图只是作为第四个输入波段简单地与呈现给FPN Backbone 的RGB图像连接起来。

深度分支的架构与彩色分支相同，不同之处在于输入仅包含一个波段。因此，两个编码器分支分别为彩色和深度产生两个多尺度输出，

P^{c}_{p}

和

P^{d}_{p}

，其中

p\in\{2,\ldots,7\}

，尺寸如第3节中描述的彩色 Backbone 。

图2中的融合块在相应的尺度上组合彩色和深度特征图，以获得融合特征图

P^{f}_{p}

。融合可以采用几种方式。作者的默认选项是_平均_融合：

P^{f}_{p}=(P^{c}_{p}+P^{d}_{p})/2\;\;\forall\;p\in\{2,\ldots,7\}. \tag{2}

在这种情况下，尺度 Level

的融合特征图由相应的彩色和深度特征图的算术平均值确定。在作者的实验中，作者将这种默认方法与基于_拼接_的融合进行了比较：

P^{f}_{p}=conv\left(concatenate(P^{c}_{p},P^{d}_{p})\right)\;\forall\;p\in\{2, \ldots,7\} \tag{3}

这里，首先在尺度 Level

上拼接两个彩色和深度特征图。之后，应用点式（

1\times 1

）卷积（

conv

）以将特征数量减少到

C_{e}

，即每个输入图的特性数量（参见第3节）。

在初步实验中，类似于Seichter等人（2021年），作者还测试了基于Squeeze-and-Excitation块（Hu等人，2018年）的融合。然而，尽管它需要更多的参数，但并没有比_平均_和_拼接_融合得到更好的结果，因此本文不考虑这种方法。

Training and Depth-aware Dice Loss

与基准方法一样，训练中最小化的损失包含两个项（参见第3节，公式1）。用于约束位置头输出的组件

\mathcal{L}_{pos}

与 (Li et al., 2021) 中使用的一致。然而，作者修改了项

\mathcal{L}_{seg}

，即应用于全景分割输出的损失。Li et al. (2021) 使用基于Dice函数（Milletari et al., 2016）的损失，该函数测量两个等大小的二值图像

和

之间的一致性水平：

Dice(Pr,Gt)=\frac{2\cdot\sum_{j=1}^{N}p_{j}\cdot g_{j}}{\sum_{j=1}^{N}p_{j}^{2 }+\sum_{j}^{N}g_{j}^{2}}, \tag{4}

其中

p_{j}\in\{0,1\}

是预测 Mask

中第

j^{th}

像素的灰度值，

g_{j}\in\{0,1\}

是 GT Mask

中相应像素的灰度值，

是 Mask 中的像素数。由于根据公式4，Dice函数测量相似性，因此Dice损失基于

1-Dice(Pr,Gt)

。

图2：作者提出的方法。带有红色边缘的块是作者的建议模块。其余的也被用于全景FCN，但在那里颜色编码器的输出直接由特征编码器和核生成块处理（Li et al., 2021）。作者的方法另外使用了深度图的编码器和融合模块；后续块处理颜色和深度融合的结果。

\otimes

表示卷积。在训练中，作者使用新的深度感知Dice损失用于 thing 实例。

然而，使用Dice损失进行

\mathcal{L}_{seg}

训练的全景FCN有时会生成包含同一类型两个空间上分离的 thing 目标的实例 Mask ，如果后者的外观相似（例如，图1）。为了解决这个问题，作者在

\mathcal{L}_{seg}

损失中引入了一个新项，该损失利用深度信息来惩罚像素分配给 thing 实例的情况，如果该像素的深度值与根据 GT 实例的范围计算的平均深度之间的绝对差异较大。这样，网络可以学习到 thing 类的一个实例内的像素具有相似的深度值。在原始的Dice损失中，预测 Mask 中的错误阳性（FP）像素

p_{j}

（由

g_{j}=0

和

p_{j}=1

表示）将降低Dice函数（公式4）的输出，因为该像素会增加分母1而不增加分子。因此，FP像素将增加损失。作者的想法是对那些深度与实例不同的FP像素进一步增加损失。这可以通过基于新的深度感知Dice函数 DDice 的损失来实现，定义为：

DDice(Pr,Gt,d)=\frac{2\cdot\sum_{j=1}^{N}p_{j}\cdot g_{j}}{\sum_{j=1}^{N}\left[ p_{j}\cdot\left(1+\omega\cdot\bar{d_{j}}\right)\right]^{2}+\sum_{j}^{N}g_{j}^{2}}, \tag{5}

其中

和

分别是对特定_事物_实例的预测和真实二值图，

p_{j}

以及

g_{j}

是像素

对应的灰度值，

是图中的像素数量，

是与

和

大小相同的深度图。通过分母中的因子

\left(1+\omega\cdot\bar{d_{j}}\right)

实现所需的深度感知。这里，

\omega

是调节深度对损失影响的超参数，

\bar{d_{j}}

是基于 FP 像素

的深度

d_{j}

与对应于

的实例的平均深度

d_{g}

之间的差值：

\bar{d_{j}}=\left|\frac{d_{j}-d_{g}}{\max\left(d_{g},d_{max}-d_{g}\right)} \right|\cdot p_{j}\cdot\left(1-g_{j}\right), \tag{6}

其中

d_{g}=\frac{1}{\sum_{j=1}^{N}g_{j}}\cdot\sum_{j=1}^{N}g_{j}\cdot d_{j}.

在等式 6 中，

d_{max}

表示可能的最大深度值的超参数。由于除非是 FP 像素，否则乘积

p_{j}\cdot\left(1-g_{j}\right)

为 0，因此深度相关项

\omega\cdot\bar{d_{j}}

只会降低 FP 像素的输出（从而增加损失）。注意，当

\omega=0

时，作者的深度感知 Dice 函数与等式 4 中的 Dice 函数等价。

在训练阶段，估计了

K^{st}

个_物质_类别的 Mask 和

K^{th}

个_事物_实例 Mask 后，评估损失项

\mathcal{L}_{seg}

并用于更新网络参数。对于_物质_类别，作者使用基于等式 4 的标准 Dice 损失来定义一个项

\mathcal{L}_{seg}^{st}

，而对于_事物_实例，则应用基于作者的深度感知 Dice 损失（等式 5）的损失

\mathcal{L}_{seg}^{th^{\prime}}

。作者得到等式 1 中

\mathcal{L}_{seg}

的以下表达式：

\begin{split}\mathcal{L}_{seg}&=\mathcal{L}_{seg}^{ st}+\mathcal{L}_{seg}^{th^{\prime}}=\\ &=\frac{1}{K^{st}}\cdot\sum_{k_{st}=1}^{K^{st}}\left[1-Dice\left( Pr_{k_{st}},Gt_{k_{st}}\right)\right]\\ &+\frac{1}{K^{th}}\cdot\sum_{k_{th}=1}^{K^{th}}\left[1-DDice\left( Pr_{k_{th}},Gt_{k_{th}},X^{d}\right)\right].\end{split} \tag{7}

这与李等人（2021年）的做法不同，他们同样使用

Dice

函数来为_事物_实例建模损失成分。等式7给出了单个训练图像的损失项

\mathcal{L}_{seg}

，对应的深度图为

X^{d}

。

Pr_{k_{st}}

和

Gt_{k_{st}}

分别是该训练图像上对_stuff_类别

k_{st}

的预测图和真实图。类似地，

Pr_{k_{th}}

和

Gt_{k_{th}}

分别是

k_{th}

_事物_实例的预测图和真实图。请注意，由于在训练时初始化实例中心的方式（参见第3节），可以知道每个预测图对应于哪个参考实例。无需将实例预测与真实实例图匹配，即可确定哪个预测实例图被认为对应于真实实例

k_{th}

。实际用于训练中的损失是所有小批量图像的损失总和。

在图3中可视化了Dice损失和作者提出的深度感知Dice损失，其中圆圈代表实例的真实阳性（TP）像素，三角形对应于FP。作者新的损失函数惩罚具有与TP平均值较大深度差异的FP像素。FP段与真实图之间的深度差异越大，为该段添加的惩罚就越大。

5 Experiments

作者首先在5.1节介绍实验设置。作者方法取得的结果在5.2节中描述，而5.3节则呈现了两项消融研究。

Experimental Setup

5.1.1 Dataset:

作者在Cityscapes数据集（Cordts等人，2016年）上进行实验。该数据集包含

k个立体图像对，展示了德国各种街道场景。所有图像的大小为

1024\times 2048

像素，并为每个立体对的左图像提供了全景标签，包括

K^{st}=11

_物质_类和

N^{th}=8

_事物_类。数据集被划分为训练集、验证集和测试集。作者使用了包含

2975

张图像的训练集来训练作者的方法。由于测试集的参考不可用，作者遵循了作者 Baseline 方法（Lipson等人，2021年；de Geus和Dubbelman，2023年）的实验协议，并使用包含

500

个图像对的验证集进行测试。

Cityscapes数据集还为每对立体图像提供了视差图，这些视差图是由SGM（Semi-global Matching）的一个变体（Cordts等人，2016年；Hirschmuller，2007年）计算得出的，作者从这些视差图中导出了深度图。

然而，作者发现基于SGM的深度图包含相当多的错误深度估计，并且有相当大区域没有有意义的深度值。因此，这些深度图对于分类的相关性预计很小，这在初步实验中得到了证实。作者决定使用RAFT-stereo（Lipson等人，2021年）生成更好的深度图。得到的深度图包含以

为单位的深度值，并经过后处理，过滤掉对于较大深度值来说不合理的小值，将小于

d_{min}=1\,m

和大于

d_{max}=500\,m

的深度值设置为

。

5.1.2 Experimental Protocol:

训练是基于最小化根据方程1和7的损失。与Li等人（2021年）类似，作者为此目的使用随机梯度下降（Stochastic Gradient Descent），权重衰减为

10^{-4}

，动量为

0.9

。作者也遵循 Baseline 方法，应用数据增强，使用包含

512\times 1024

像素的图像块的小批量处理。这些图像块是从缩放后的图像和深度图随机裁剪的，缩放因子为

f\in[0.5,2]

，并应用随机水平翻转。深度值也按比例调整，以保持图像平面与深度之间的范围比例。输入图像块通过减去逐通道均值

\mu

并除以逐通道标准差

\sigma

进行归一化，这些值分别从训练集中的所有图像和深度图中计算得出。请注意，标记为不在深度范围

[d_{min},d_{max}]

内的像素在确定

\mu

和

\sigma

时不予考虑。在一个训练迭代中处理的小批量包含

个这样的图像块，共进行

180

k次这样的迭代。初始学习率设置为

0.02

，并在每1000次迭代后以

0.9

的因子降低。颜色和深度编码器的参数都通过在ImageNet（Deng等人，2009年）上预训练获得的值进行初始化。

方程1中引入的两个超参数设置为

\lambda_{pos}=1.0

和

\lambda_{seg}=3.0

，作者使用

\omega=3.0

作为与深度方程5相关的权重。这些值是在初步实验中确定的。作者应用均值融合来组合RGB和深度特征（参见第4.2节），并使用

C_{e}

= 256的特征维度来处理结果特征图（参见第3节）；这比（Li等人，2021年）中使用的

C_{e}

= 64要大。以下，作者将按照本节所述进行训练和参数化的方法变体称为_Ours_。所有实验都是在具有40GB内存的Nvidia A100 GPU上进行的。

5.1.3 Evaluation Protocol:

作者遵循Kirillov等人（2019年）的评价方案，使用全景质量（

）作为质量衡量标准：

PQ=\frac{\sum_{(Pr,Gt)\in TP}IoU\left(Pr,Gt\right)}{|TP|+\frac{1}{2}\cdot|FP|+ \frac{1}{2}\cdot|FN|}\,, \tag{8}

其中

和

是预测的 Mask 和对应的真实 Mask ，

IoU

表示这些 Mask 的交并比。

指的是真正例 Mask 的集合，即对于预测的 Mask

，如果能在真实 Mask 中找到一个

IoU>50\%

的匹配，则将其视为真正例。类似地，

和

分别表示假正例 Mask 的集合（例如，预测的_事物_实例在真实 Mask 中没有匹配）和假负例 Mask 的集合（例如，真实_事物_实例在预测中没有对应）。除了

之外，作者还报告了仅针对_事物_（

PQ^{th}

）和_物质_类（

PQ^{st}

）的全景质量。关于如何确定

、

PQ^{th}

和

PQ^{st}

的详细信息可以在（Kirillov等人，2019年）中找到。

Results and Discussion

表1展示了作者方法在Cityscapes验证集上获得的质量指标，

图4展示了一些定性例子。该表还呈现了两种 Baseline 方法（Li等人，2021年）和（de Geus和Dubbelman，2023年）的结果。作者选择（Li等人，2021年）进行比较，因为作者的方法是该方法的一个扩展，这样比较就能突出作者修改的影响。

作者按照第5.1.2节描述的协议训练了该 Baseline ，即使用

C_{e}=256

。

图4还展示了这个 Baseline 方法产生的一些定性结果。（de Geus和Dubbelman，2023年）的第二个 Baseline 之所以被选中，是因为它试图解决与作者的方法以及（Li等人，2021年）相同的问题，但使用的是不同的策略（并且也没有使用深度）。

在这种情况下，质量指数是（de Geus和Dubbelman，2023年）发布的，它们基于与作者相同的训练和测试图像定义。

请注意，（Li等人，2021年）的值比原始论文中发布的更好，这可能是由于使用了不同的特征维度

C_{e}

（作者使用的minibatch大小和训练迭代次数也不同）。与（Li等人，2021年）相比，（de Geus和Dubbelman，2023年）在

PQ^{th}

和

上的结果略好，但在

PQ^{st}

上略低。作者的方法在所有质量指数上都超过了这两种方法，即对_事物_类和_物质_类都适用。与（Li等人，2021年）相比，_事物_类的改进更为显著（+2.6%），而_物质_类为（+1.9%），

总改进为+2.2%。与同样解决了合并实例问题的（de Geus和Dubbelman，2023年）相比，_事物_类的改进仍为+1.5%。总的来说，作者方法的

提升为+1.8%。作者认为这些数字证实了文章开始时的假设，即考虑深度有助于区分外观相似的_事物_实例，从而提高全景分割的质量。

这种积极效果也可以在图4中红色框标出的区域中看到。而（Li等人，2021年）倾向于将位于不同深度 Level 的视觉相似但不同的_事物_实例上的像素分配给同一个实例 Mask ，作者的方法减轻了这种效应，能够区分这些实例。

然而，仍存在一些问题。在作者的深度感知Dice损失函数中，用于区分不同_事物_实例的是相机与物体之间的距离差异。因此，看起来相似且出现在相似距离的实例仍然存在问题，如图5所示。在这种情况下，与简单的dice损失相比，深度信息并没有导致损失函数中FP实例像素的进一步惩罚，从而产生了与 Baseline （Li等人，2021年）类似的问题。作者计划在未来的工作中解决这个问题，例如，通过在损失函数中包含基于不同实例之间的3D距离的惩罚，而不仅仅是依赖深度差异。

Ablation Studies

5.3.1 Influence of the weight

\omega

表1：作者的方法和两个 Baseline 在所有类别（

）、事物类（

PQ^{th}

）和材质类（

PQ^{st}

）上实现的泛态质量。所有值均以

[\%]

给出。

在本节中，作者研究了作者损失函数（参见4.3节）中与深度信息相关的权重

\omega

对作者方法性能的影响。为此，作者按照5.1.2节描述的方式，使用不同的

\omega

值（即

0,1,3,5

和

）多次训练作者的方法。注意，

\omega=3

是前一部分分析过的设置。在

\omega=0

的设置中，使用原始的Dice损失进行训练，即深度作为额外的输入，但训练基于（Li et al., 2021）中使用的损失。结果如表2所示。总体而言，

的差异在1%左右。

\omega

对事物类的影响大于对材质类的影响。使用

\omega=3

时，在所有比较的质量指标方面都取得了最佳结果。特别有趣的是将这一结果与使用原始Dice损失（

\omega=0

）时取得的结果进行比较。表2中的质量指数表明，使用Dice Loss的扩展可以独立于使用的

\omega

值提高

，在

\omega=3

的情况下，提高了+1.5%。有趣的是，对于事物类和材质类，

值都受到了积极影响，尽管在训练中深度感知Dice损失只应用于事物实例；可能是因为FP实例数量的减少导致了材质像素的错误率降低，这会通过等式8中的

IoU

值影响

PQ^{st}

指标。尽管如此，

PQ^{th}

的提高（+2.7%）大于

PQ^{st}

的提高（+1.2%），可能正因为这个原因。另一方面，表2中使用的

\omega=0

的

指标仍然略优于表1中两个 Baseline 报告的指标，这主要归功于材质类别分割质量的提高，如

PQ^{st}

值所示。作者可以得出结论，仅将深度作为额外输入可以略微改善结果，主要是对材质类别；在训练中引入深度感知Dice损失进一步改进了结果，在这种情况下，对事物类的影响更大。

5.3.2 Comparison of fusion schemes:

在本节中，作者研究了对RGB图像和深度图提取的特征进行融合的融合方案的影响（参见第4.2节）。为此，作者将使用平均值融合方案（方程2）得到的结果与使用基于连接的融合方法得到的结果进行了比较。这些结果在第5.2节中已有讨论。为了获得后者，按照第5.1.2节描述的协议训练了另一个模型，但将平均值融合替换为根据方程3的融合方案。结果展示在表3中。表3的质量指数表明平均值融合更为优越：使用平均值融合时，

提高了1.1%，其他指数也高于该变体。对于_thing_实例（

PQ^{th}

），差距为

2.1\%

。

6 Conclusion

图5：作者方法的失败案例：红色框指示了作者的方法错误合并的实例。合并的实例发生在相似的深度。

在本文中，作者提出了一种基于CNN的新型全景分割方法，它结合了颜色和深度信息，以克服仅基于RGB图像的现有方法的问题。深度以两种方式考虑。一方面，深度与RGB图像一起在单独的网络分支中处理，并将生成的特征图以晚期融合的方式组合。另一方面，作者的方法基于一种新的深度感知骰子损失项，它根据像素关联的深度值之间的差异，惩罚将像素分配到同一个thing实例的行为。

在Cityscapes数据集上进行的实验表明，与 Baseline 方法相比，所提出的方法在全景质量上总体提高了

+2.2\%

，在 thing 和 stuff 类别上分别提高了

+2.6\%

和

+1.9\%

。在 thing 类别上的改进主要是通过减少错误地将多个目标合并为一个 thing 实例的数量来实现的。

作者的结果表明，在全景分割中考虑场景的显式3D信息是有益的。

由于作者在损失函数中使用深度差异来计算惩罚项，因此正确分割同一深度上外观相似的不同物体仍然是一个挑战。作者希望在未来的工作中通过在损失函数中包含基于不同物体之间3D距离的惩罚项来解决这一问题。

此外，作者计划通过结合时间信息，即使用带有相关深度图的图像序列而不是在单个时间点获取的数据，来扩展所提出的方法。

参考

[1].Depth-Aware Panoptic Segmentation.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-29，如有侵权请联系 cloudcommunity@tencent.com 删除

工作

本文分享自 arXiv每日学术速递微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！