前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【他山之石】​​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!

【他山之石】​​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!

作者头像
马上科普尚尚
发布2024-06-05 08:59:29
920
发布2024-06-05 08:59:29
举报

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!

1 Introduction

全景分割结合了语义分割和实例分割的任务[17]。对于一组“事物”类别,例如“汽车”,它提供了关于各个实例的信息,例如以带有类别标签的边界框和指示实例像素的二值 Mask 的形式。在实例分割中不属于“事物”实例的区域(实例分割中的“背景”)以类似于语义分割的方式分配到所谓的“物品”类别之一。对于这些类别(例如,“墙壁”),不决定实例的信息。

这个任务通常使用神经网络解决。早期的方 法在后期处理中合并了实例分割和语义分割的独立方法的 结果[17]。最近的方法应用了统一的策略,允许端到端训练。

Li等人(2021)通过为每个“物品”类别预测一个二值 Mask ,为每个“事物”类别的每个实例预测一个二值 Mask 和一个类别标签来实现这一目标。这避免了需要边界框 Proposal ,并允许网络以端到端的方式共同学习这两个子任务。

现有工作通常只依赖于RGB图像作为输入。图1展示了由[11]从这类图像预测的二值实例 Mask 的例子。在这个例子中,两个外观相似的“汽车”实例实际上被合并成了一个。

克服这类问题的一种方法是集成附加信息。在这项工作中,作者利用来自立体图像的“深度”作为附加输入,从而提出了一个用于深度感知全景分割的方法。

RGB和深度数据已被用于语义分割和实例分割有一段时间了,但只有少数关于全景分割利用这两种模态的工作。Narita等人(2019)仍然应用RGB图像进行全景分割,仅使用深度来估计相机姿态并生成3D地图。

Seichter等人(2022)在将输出融合以用于实例分割和语义分割之前,在深度神经网络的两个独立分支中处理深度和颜色。因此,这种方法仍然涉及两个独立的网络。

在这项工作中,作者试图克服现有方法的一些问题,做出了以下科学贡献:

  • 作者提出了一种可以端到端训练的联合使用颜色和深度的全景分割方法。
  • 在此背景下,作者研究了网络颜色和深度分支融合的两个不同技术。
  • 作者提出了一种新的深度感知损失项,以减轻如图1所示的问题,利用不同“事物”实例的深度差异。
  • 作者通过使用公开可用的基准数据集进行的实验,展示了附加信息和新的损失函数所带来的改进。

作者的方法基于[11],作者通过增加一个额外的深度分支,将得到的特征与网络颜色分支获得特征融合,以及通过一个新的深度感知损失函数来扩展它。

2 Related Work

全景分割方法可以分为自顶向下(基于框)、自底向上(无框)和统一方法,后者也被称为单一路径方法。自顶向下和自底向上的方法在合并它们的预测结果以获得全景分割结果之前,分别独立处理语义和实例分割。

自顶向下方法遵循两阶段设计,首先估计_物_实例的边界框,然后为每个实例预测像素级的 Mask 和语义标签,例如(Kirillov等人,2019;Xiong等人,2019;Li等人,2019)。背景的语义分割通常是单独进行的。因此,性能高度依赖于估计的边界框的质量。重叠边界框的语义分割 Mask 之间以及实例与背景之间的连贯性不能保证,这需要在启发式的后处理步骤中解决冲突。

自底向上方法通过在不依赖先前估计的边界框的情况下估计语义和实例分割 Mask 来解决这一限制。例如,Cheng等人(2020)应用了区分_物质_和_物_类别的语义分割。实例 Mask 来自两个额外网络分支的输出:每个目标实例的中心点以及位于该实例上的每个像素到相应中心点的偏移量。所有网络分支可以端到端训练,但需要相当复杂的后处理步骤从原始输出中导出实例 Mask 和类别标签。

统一方法不针对语义和实例分割应用单独的网络或网络分支,而是直接解决全景分割任务,例如,同时预测 物质 类别和 事物 实例的二值 Mask 。

沿着这一策略,Li等人(2021年)提出学习两种类型的中间特征图的估计:

描述单个 事物 实例和 物质 类别的地图以及编码输入图像的地图。

第一种类型的地图用于提取滤波核,用于对第二种类型的地图进行卷积。这些卷积的结果是一组二值 Mask (每个 事物 实例和一个 物质 类别各一个)。(Li等人,2021年)的一个局限性是将外观相似的不同目标像素错误地分配给单一实例 Mask (参见图1)。de Geus和Dubbelman(2023年)认为这个问题与仅使用图像裁剪的训练过程有关,因为网络一次只能看到少量(部分可见)的目标。他们提出了一个额外的损失项,强制上述两种类型的特征图在每个图像裁剪中是不同的,假设不同的裁剪显示了不同的目标。张等人(2021年)提出了一种与(Li等人,2021年)类似的方法,以相同的方式估计并使用先前提到的两种类型的特征图。

在(Kirillov等人,2019年)的基础上,作者关注作为滤波核使用的特征图的判别能力,通过基于聚类的方 法,鼓励同一类的特征相似,不同类的特征明显不同。王等人(2021年)提出了一种基于注意力的架构,包含2D像素基础和1D全局记忆路径。前者用于估计每个实例的二值分割 Mask ,后者为每个 Mask 提供语义类别标签。这两条路径通过所谓的双路径转换块密集连接,允许在两条路径之间交换信息。为了确保各个分割 Mask 之间的一致性,即图像的每个像素恰好属于一个 Mask ,对预测的分割 Mask 集的每个像素应用softmax函数。

于等人(2022年)将传统聚类方法的概念融入到 Mask Transformer 架构中,以在神经网络的早期阶段识别属于同一目标实例的像素。像素到簇的分配以及簇中心的更新和每个像素特征描述符的实现都是作为注意力层,并迭代计算。统一方法在全景分割方面取得了显著改进,也减少了为了获得一致结果而进行后处理的需要。然而,大多数方法依赖于单一的RGB图像,因此仅限于观察场景的2D信息。

为了进一步提高结果,可以利用观察场景的3D几何信息作为额外的输入。Narita等人(2019)采用一系列RGB图像和相应的深度图作为输入,以体积图的形式估计3D全景分割。首先针对序列的每一帧在2D空间进行全景分割,仅使用一个RGB图像。利用深度信息估计相应RGB图像的外部取向参数,并将基于帧的2D全景分割 Mask 组合为整个序列的体积3D表示。Wu等人(2021)提出了一种从RGB和深度数据增量估计3D场景图的方法,同时也作为副产品提供观察到的3D表面的全景分割。

通过训练图神经网络构建一个图,其中属于同一目标或目标部分的像素簇对应于节点,而边表示节点之间的几何关系。通过根据边信息组合对应于同一目标的节点,获得全景分割。在这两种方法中,深度不是用来支持全景分割本身,而只是用来融合独立估计的2D全景分割 Mask ,并将这些 Mask 从2D提升到3D。相比之下,Seichter等人(2022)同时使用RGB图像和深度图,采用编码器-解码器架构进行2D全景分割。首先,颜色和深度在两个独立的编码器分支中处理。

在不同尺度上融合提取的特征图,这可以作为晚期融合方法的例子。解码器也包括两个独立的分支,一个用于估计语义分割,另一个用于实例分割。因此,Seichter等人(2022)遵循自下而上的策略,这种策略受到前面讨论的限制。虽然深度信息用于全景分割,但深度与待估计的分割 Mask 之间的关系是通过纯粹的数据驱动方式学习的,即在训练过程中没有基于几何明确引入对分割的约束。

总之,(Li等人,2021)和(Seichter等人,2022)可以被认为是与本文提出的工作最相似的研究。作者以(Li等人,2021)作为作者工作的基础,但通过增加一个处理深度信息的额外分支以及训练中使用的损失函数进行了扩展,作者提出了一个新的深度感知项。作者集成深度的方式受到Seichter等人(2022)的启发,但作者的整体架构是不同的。此外,深度不仅仅是作为附加输入,还在损失函数中用来明确约束像素到实例 Mask 的分配。

3 Background: Panoptic FCN

stuff

thing

FPN的输出在两个独立的分支中进一步处理:_特征编码器_ 和 _核生成器_,参见图2。

位置头_。_核头

核权重

核_)。_位置头

stuff

thingthing

通过将这些图应用阈值和局部非最大抑制[20],确定实例中心。

特征编码器的输出与每个核进行卷积,每个输出通过sigmoid函数进行归一化,产生

其中

是用于加权两个损失项的超参数。损失项

应用于网络位置 Head 的输出。它使用Focal Loss [18] 将每个尺度的包含类别分数的地图与参考进行对比。对于

stuffthing

stuffthing

stuffthing

4 Depth-aware Panoptic Segmentation

作者首先从概述(第4.1节)开始介绍作者的深度感知全景分割方法。

之后,作者重点关注与 Baseline (参见第3节)相比的主要修改。

作者在第4.2节介绍了融合RGB和深度数据的概念,而在第4.3节描述了训练过程,引入了作者的新型深度感知dice损失。

Overview

Colour and Depth Fusion

Seichter等人(2021年)在相似的架构下分别处理彩色和深度图像的独立编码器分支,然后融合产生的特征。作者遵循这种_晚期融合方法_,通过在编码器中增加一个深度分支来扩展全景FCN架构。作者这样做是因为在初步实验中,这种变体比早期融合方法表现得更好,在早期融合方法中,深度图只是作为第四个输入波段简单地与呈现给FPN Backbone 的RGB图像连接起来。

在初步实验中,类似于Seichter等人(2021年),作者还测试了基于Squeeze-and-Excitation块(Hu等人,2018年)的融合。然而,尽管它需要更多的参数,但并没有比_平均_和_拼接_融合得到更好的结果,因此本文不考虑这种方法。

Training and Depth-aware Dice Loss

thing

thing

thingthing

DDice

其中

在图3中可视化了Dice损失和作者提出的深度感知Dice损失,其中圆圈代表实例的真实阳性(TP)像素,三角形对应于FP。作者新的损失函数惩罚具有与TP平均值较大深度差异的FP像素。FP段与真实图之间的深度差异越大,为该段添加的惩罚就越大。

5 Experiments

作者首先在5.1节介绍实验设置。作者方法取得的结果在5.2节中描述,而5.3节则呈现了两项消融研究。

Experimental Setup

5.1.1 Dataset:

Cityscapes数据集还为每对立体图像提供了视差图,这些视差图是由SGM(Semi-global Matching)的一个变体(Cordts等人,2016年;Hirschmuller,2007年)计算得出的,作者从这些视差图中导出了深度图。

5.1.2 Experimental Protocol:
5.1.3 Evaluation Protocol:

Results and Discussion

表1展示了作者方法在Cityscapes验证集上获得的质量指标,

图4展示了一些定性例子。该表还呈现了两种 Baseline 方法(Li等人,2021年)和(de Geus和Dubbelman,2023年)的结果。作者选择(Li等人,2021年)进行比较,因为作者的方法是该方法的一个扩展,这样比较就能突出作者修改的影响。

图4还展示了这个 Baseline 方法产生的一些定性结果。(de Geus和Dubbelman,2023年)的第二个 Baseline 之所以被选中,是因为它试图解决与作者的方法以及(Li等人,2021年)相同的问题,但使用的是不同的策略(并且也没有使用深度)。

在这种情况下,质量指数是(de Geus和Dubbelman,2023年)发布的,它们基于与作者相同的训练和测试图像定义。

这种积极效果也可以在图4中红色框标出的区域中看到。而(Li等人,2021年)倾向于将位于不同深度 Level 的视觉相似但不同的_事物_实例上的像素分配给同一个实例 Mask ,作者的方法减轻了这种效应,能够区分这些实例。

然而,仍存在一些问题。在作者的深度感知Dice损失函数中,用于区分不同_事物_实例的是相机与物体之间的距离差异。因此,看起来相似且出现在相似距离的实例仍然存在问题,如图5所示。在这种情况下,与简单的dice损失相比,深度信息并没有导致损失函数中FP实例像素的进一步惩罚,从而产生了与 Baseline (Li等人,2021年)类似的问题。作者计划在未来的工作中解决这个问题,例如,通过在损失函数中包含基于不同实例之间的3D距离的惩罚,而不仅仅是依赖深度差异。

Ablation Studies

5.3.2 Comparison of fusion schemes:

6 Conclusion

图5:作者方法的失败案例:红色框指示了作者的方法错误合并的实例。合并的实例发生在相似的深度。

在本文中,作者提出了一种基于CNN的新型全景分割方法,它结合了颜色和深度信息,以克服仅基于RGB图像的现有方法的问题。深度以两种方式考虑。一方面,深度与RGB图像一起在单独的网络分支中处理,并将生成的特征图以晚期融合的方式组合。另一方面,作者的方法基于一种新的深度感知骰子损失项,它根据像素关联的深度值之间的差异,惩罚将像素分配到同一个thing实例的行为。

作者的结果表明,在全景分割中考虑场景的显式3D信息是有益的。

由于作者在损失函数中使用深度差异来计算惩罚项,因此正确分割同一深度上外观相似的不同物体仍然是一个挑战。作者希望在未来的工作中通过在损失函数中包含基于不同物体之间3D距离的惩罚项来解决这一问题。

此外,作者计划通过结合时间信息,即使用带有相关深度图的图像序列而不是在单个时间点获取的数据,来扩展所提出的方法。

参考

[1].Depth-Aware Panoptic Segmentation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Background: Panoptic FCN
  • 4 Depth-aware Panoptic Segmentation
    • Overview
      • Colour and Depth Fusion
        • Training and Depth-aware Dice Loss
          • 5.1.1 Dataset:
          • 5.1.2 Experimental Protocol:
          • 5.1.3 Evaluation Protocol:
      • 5 Experiments
      • Experimental Setup
        • Results and Discussion
          • Ablation Studies
            • 5.3.2 Comparison of fusion schemes:
        • 6 Conclusion
        • 参考
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档