韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题

集智书童公众号

发布于 2024-04-12 20:00:33

2340

发布于 2024-04-12 20:00:33

韩国高研院升级 CLIP，当前最先进的在弱监督语义分割（WSSS）中的技术在像Cityscapes这样的驾驶场景数据集上表现出了严重的性能退化。为了解决这个挑战，作者开发了一个专门针对驾驶场景数据集的新WSSS框架。在详细分析数据集特征后，作者使用对比语言-图像预训练（CLIP）作为作者的 Baseline 来获取伪Mask。然而，CLIP引入了两个关键挑战：

CLIP生成的伪Mask在表示小物体类别方面存在问题
这些Mask中包含明显的噪声

作者针对每个问题提出了以下解决方案：

设计了一种全局-局部视图训练，它可以在模型训练过程中无缝地合并小规模的块，从而增强模型在处理驾驶场景中的小而关键物体（例如交通信号灯）的能力。
引入了一种名为一致性感知区域平衡（CARB）的新技术，它通过评估CLIP Mask与分割预测的一致性来区分可靠和噪声区域。它通过自适应损失权重优先考虑可靠的像素而不是噪声的像素。

值得注意的是，所提出的该方法在Cityscapes测试数据集上实现了51.8%的“mIoU”，展示了其在驾驶场景数据集上的强大WSSS Baseline 的潜力。在CamVid和WildDash2上的实验结果表明，作者的方法在各种数据集上具有有效性，即使数据集较小或具有视觉挑战性条件。代码：https://github.com/k0u-id/CARB

1 Introduction

近年来，在图像级标签的弱监督语义分割（WSSS）中取得了令人瞩目的进展，在PASCAL VOC数据集上实现了与全监督模型相比超过90%的性能水平。鉴于这种成功，将WSSS框架转移到驾驶场景（语义分割的一个重要场景）至关重要。在驾驶场景中获取像素级标签的成本过高，因此在这种背景下，标签高效的训练方法变得至关重要。例如，Cityscapes需要每张图像1.5小时，而PASCAL VOC需要每张图像239.7秒。

然而，当应用于像Cityscapes这样的驾驶场景数据集时，WSSS模型表现出显著的性能退化。Akiva和Dana将这一问题归因于数据集的特定特征，如小物体大小、每张图像中物体的数量多以及物体外观的有限多样性。然而，他们只是隐式地报告了这一趋势。在作者研究中，作者明确地将驾驶场景数据集与现有的基准数据集（即PASCAL VOC和MS COCO）进行比较。结果，作者发现驾驶场景数据集缺乏负样本，并且类之间的共现程度显著较高。这使得通过图像分类识别单个物体变得具有挑战性，从而阻碍了常见WSSS Baseline 的有效性，如类激活映射（CAM）。

最近，对比语言图像预训练（CLIP），一种在4亿图像-文本对上训练的模型，在开放词汇分类方面表现出色。利用CLIP的开放词汇分类能力，作者可以避免数据集的特征降解，从而使分类器的性能不受影响。因此，与类激活映射（CAM）不同，CLIP生成的种子Mask在像Cityscapes这样的驾驶数据集上更好地区分了目标区域。尽管具有潜力，但CLIP经常无法识别小物体并生成噪声Mask（见图3（a））。

在本文中提出了一种新的WSSS框架，用于解决CLIP中固有的两个挑战，以应对驾驶场景数据集。考虑到CLIP作为 Baseline Mask生成器，作者提出：

全局-局部视图训练以处理小型目标
一致性感知区域平衡（CARB）以减轻噪声伪Mask的负面影响。

首先，作者发现CLIP的一个独特特性：在不同输入尺度下提供相当不同的伪Mask。基于这一观察，作者在模型训练期间使用全局视图（即原始大小图像）和局部视图（即小尺寸块）进行准确检测驾驶场景中的小但关键的目标（例如交通信号灯）。

接下来，作者提出了一种名为CARB的方法，用于抑制伪Mask的错误区域以训练分割模型。具体而言，根据分割模型与CLIP之间的预测一致性将噪声伪Mask分为一致和不一致区域。不一致区域包含比一致区域更多的假预测，导致更高的损失。这种损失大小的差异对整体训练过程产生了负面影响。为了减轻这种影响，作者提出了一种策略，以平衡来自两个区域的损失，从而抑制不一致区域的高损失。

总之，作者研究了在常用评估数据集中驾驶场景的独特特性，并强调了在这些场景中基于CAM的有效性问题的存在。作者提出了一种新的WSSS框架，利用CLIP生成的伪Mask，建议全局-局部视图训练来处理小型目标，以及CARB来减轻噪声伪Mask的负面影响。

作者在Cityscapes数据集上证明了所提出的方法实现了51.8%的mIoU，展示了在驾驶场景中作为强大WSSS Baseline 的潜力。该方法的有效性已在CamVid，代表小型数据集，以及WildDash2，包含更具视觉挑战的场景（例如，多样化的天气和光线条件）上得到证实。由于其在性能和简单训练方面的优势，作者的方法可以为未来解决驾驶场景中WSSS挑战提供有价值的 Baseline 。

2 Related Work

早期的WSSS技术使用图像级标签主要采用类激活映射（CAM）。由于其稀疏覆盖，最近的研究重点在于扩大判别区域。在全局-局部视图方面，L2G通过使用局部注意力加强了分类器学习，并用于扩大判别区域。这种方法也被用于解决共现问题并引入额外的信息。然而，大多数现有方法只评估在PASCAL VOC或MS COCO等数据集上。Akiva和Dana. 2023在像Cityscapes和ADE20k等更复杂的数据集上进行了评估，但仅揭示了现有WSSS研究的性能限制。Wang, Ma和You. 2020在驾驶场景数据集上引入了一种基于聚类的方法，但他们只实现了微小的改进。与大多数WSSS研究不同，作者分析了与现有基准数据集相比驾驶场景数据集的独特特性，并针对驾驶场景提出了WSSS的新方向。

基于CLIP的分割。CLIP是一个在大量图像-文本对上进行训练的框架。在分割领域，已经尝试利用多模态嵌入空间的特性。在WSSS中，CLIMS通过优化Mask的相似性来基于Mask图像和文本嵌入空间的相似性来优化Mask。CLIP-ES通过Grad-CAM的方式生成种子Mask。然后，它使用CLIP图像编码器的类相关亲和力来微调Mask。

现有的研究也显示了利用CLIP的零样本能力在零样本和少样本分割方面取得了显著的改进。最近，MaskCLIP被提出，用于从数据集 Level 而不是图像 Level 利用CLIP创建密集的Mask。作者使用MaskCLIP从图像中提取密集标签，并进一步提出一种处理其伪Mask中存在的噪声的训练策略。

估计不确定性自深度神经网络学习概率模型以来就被讨论了。在语义分割方面，Feng等人利用一组初始化方式不同的模型来分离不确定性区域。类似地，几种方法利用置信阈值和CRF优化的Mask与原始Mask之间的一致性来定义可靠区域。ST++通过利用前几个预训练权重的结果来识别可靠的图像。最近，几种方法建议使用像素级熵来测量像素级不确定性。

3 Statistics of Datasets

在这个部分，为了确定现有WSSS方法在驾驶场景上表现不佳的原因，作者比较了两种类型的数据集：标准基准数据集（例如，PASCAL VOC和MS COCO）和驾驶场景数据集（例如，Cityscapes和CamVid）。

具体而言，作者研究了以下三个方面的直方图：

每张图像中的类别数量
类别之间的共现比例
每个类别中的正负样本数量（见图1）。

两种数据集之间的明显区别在于单张图像中的类别数量。尽管现有的基准数据集在大多数图像中只包含一个或两个类别，但驾驶场景数据集通常在一张图像中包含八个或更多的类别，如图1（a）所示。接下来，作者计算每对类别之间的共现频率比例，并在图1（b）中绘制这些比例的直方图。更糟糕的是，驾驶场景中的这些类别通常一起出现，导致上下文偏差。这与PASCAL VOC和MS COCO显然不同。

另一个关键点是驾驶场景数据集中负样本的稀缺性。负样本对于训练图像分类器是非常重要的学习信号。如图1（c）所示，现有数据集中有足够的负样本，但驾驶场景数据集中的某些类别具有极少的或零的负样本。最严重的是，CamVid中的“道路”和“汽车”始终出现在所有训练图像中，仅使用图像级标签无法区分。了解这些特性对于开发利用图像级标签在驾驶场景应用中的有效方法至关重要。

4 Method

Global-local View Training

由于驾驶场景的特定性质，某些类如“道路”始终较大，而其他类如“交通信号灯”则保持较小的尺寸。此外，由于驾驶场景捕捉了每个图像中具有不同深度范围的道路环境，同一类别中的物体大小在距离上显著不同，例如“汽车”。在图3（a）中，作者观察到CLIP模型生成的伪Mask对于相对较大的物体具有显著较高的质量，但对于较小的物体则质量较差。作者推测这种性能退化可能是由于CLIP模型的训练机制（即主要关注与文本提示对应的显著物体，而不是小型物体）导致的。

在此基础上，作者通过调整图像尺度和视场（FOV）来调整输入中的相对物体大小。然后分析从CLIP获得的伪Mask结果的变化。在图3（b）中，当输入放大到原来的两倍时，伪Mask在物体边界的准确性和精细程度上表现出更高的准确性和更细粒度。另外，将FOV缩小一半（即网络一次只观察输入的1/4）会导致伪Mask的明显变化，尤其是对于较小的物体（如摩托车）等（参见图3（c））。这个简单的案例研究揭示了每个调整所关联的独特特性。

总之，作者观察到CLIP对裁剪（改变FOV）和缩放（改变尺度）有不同的反应。（1）缩放可以改善边缘等细粒度区域的定位。（2）裁剪可以增强小物体的分类。利用裁剪和缩放的独特效应，作者协同地将这两种增强方法集成到作者的方法中。通过共同利用这些功能，作者增强了伪Mask性能，尤其是对于小物体。

受到这个观察启发，作者开发了一种新方法，称为局部视图采样（Local View Sampling）。这种技术利用了常规的增强输入，通常称为全局视图，通常用于训练分割网络。作者从全局视图中的任意位置（通常为任意大小）提取一个特定大小的块（通常较小）。然后，在通过CLIP之前，将块随机缩放。作者通过计算图像编码器中的局部特征与文本嵌入相似度来获得局部伪Mask：

\mathbf{M^{1}}=\arg\max(\frac{\mathbf{F}^{1}\cdot\mathbf{t}}{\|\mathbf{F}^{1}\|\cdot\|\mathbf{ t}\|}), \tag{1}

其中

\mathbf{F}^{1}

是CLIP的全局视图特征，

\mathbf{t}

是CLIP的文本嵌入。局部视图只包含一个较小、受限的区域中的语义信息，因此它可以充分利用CLIP的局部性。这使得局部视图的伪Mask可以更好地关注小物体。作者利用两种视图的Mask来训练分割模型。全局-局部视图训练的损失是通过每个区域的交叉熵损失计算的。

\mathcal{L}_{1}=-\frac{1}{|\mathbf{M^{i}}|}\sum_{i,j\in local}y^{1}\log f_{i,j}, \tag{2}

\mathcal{L}_{\mathbf{g}}=-\frac{1}{|\mathbf{M^{g}}|}\sum_{i,j}y^{\mathbf{g}} \log f_{i,j}, \tag{3}

其中

y^{1}

和

y^{\mathbf{g}}

分别是

\mathbf{M^{1}}

和

\mathbf{M^{g}}

的one-hot标签。

\mathbf{M^{g}}

和

\mathbf{M^{1}}

分别是全局伪Mask和局部伪Mask。

f\in\mathbb{R}^{C\times H\times W}

是分割网络的概率。全局-局部视图训练的总损失

\mathcal{L}=\mathcal{L}_{\mathbf{g}}+\mathcal{L}_{1}

。

Consistency-aware Region Balancing

作者识别出由CLIP生成的伪Mask中的噪声区域。图4展示了一个包含小而类似于块状噪声区域的伪Mask的示例，这些噪声区域随机分布在图像上。

相反，使用伪Mask训练分割网络可以消除CLIP伪Mask在输出中随机散布的噪声，从而实现有系统的预测。（例如，图4（b）中的道路）然而，分割预测错误地分类了原伪Mask中原本正确的像素。特别是，作者观察到训练好的分割模型产生的物体边界甚至比CLIP生成的伪Mask（例如，图4（b）中的人行道）还要模糊。

由于训练好的分割模型和CLIP的独特属性，作者利用两个模型各自的优点。然而，分割模型的预测已经包含在模型中，直接使用分割预测计算损失并不能提供新的训练证据。为了解决这个问题，作者通过分割预测间接区分CLIP生成的伪Mask像素。具体来说，作者利用预测一致性，认为如果像素的预测一致且噪声，则将其视为可靠的；否则，将其视为噪声：

\mathbf{M^{c}}=\{P_{i,j}|P_{i,j}=S_{i,j}\}, \tag{4}

\mathbf{M^{i}}=\{P_{i,j}|P_{i,j}\neq S_{i,j}\}, \tag{5}

其中

\mathbf{M^{c}}

和

\mathbf{M^{i}}

分别对应一致和不一致区域， respectively。

P\in C^{H\times W}

和

S\in C^{H\times W}

分别是CLIP生成的伪Mask和分割网络的预测，其中

是一个类别集。此外，作者在生成

时应用标签过滤，以防止在图像中存在非存在类别的误预测。

一致和不一致区域在每个迭代中都被重新计算以更新分割模型。随着训练的进行，作者注意到一致区域的大小发生了变化，从而导致分割模型的性能提高（见图5（b））。

为了理解一致和不一致区域的影响，作者分别计算每个侧面的交叉熵损失：

\mathcal{L}_{\mathbf{c}}=-\frac{1}{|\mathbf{M}^{\mathbf{c}}|}\sum_{i,j}y^{ \mathbf{c}}\log f_{i,j}, \tag{6}

\mathcal{L}_{\mathbf{i}}=-\frac{1}{|\mathbf{M}^{\mathbf{i}}|}\sum_{i,j}y^{ \mathbf{i}}\log f_{i,j}, \tag{7}

其中

y^{\mathbf{c}}

和

y^{\mathbf{i}}

分别是

\mathbf{M}^{\mathbf{c}}

和

\mathbf{M}^{\mathbf{i}}

的one-hot标签。

f\in\mathbb{R}^{C\times H\times W}

是分割网络的概率。作者在图5（a）中观察到不一致区域的损失值远高于一致区域。如果作者对所有区域采用相同的训练损失，网络会过度受到来自不一致区域的高损失的影响。因此，作者建议在考虑数据噪声水平的同时，对一致区域和不一致区域的损失分配不同的权重。这有助于防止传统的交叉熵损失在训练数据中的噪声敏感性。

为此，作者设计了一种自适应区域平衡方法，该方法在训练过程中动态调整不一致区域的损失，并通过监测一致区域和不一致区域中的损失轮廓。具体而言，作者引入了两个固定大小的队列，分别跟踪两个区域（分别表示为

\mathcal{L}_{\mathbf{c}}

和

\mathcal{L}_{\mathbf{i}}

）的损失。然后，作者计算每个队列的平均损失。作者使用两个平均损失之间的比例作为不一致区域交叉熵损失的权重，表示为

，该权重乘以不一致区域的损失。CARB训练损失

\mathcal{L}=\mathcal{L}_{\mathbf{c}}+w\cdot\mathcal{L}_{\mathbf{i}}

。这种平衡确保训练对不一致区域的依赖较小。

虽然有人可能会认为不一致区域的损失可以简单地忽略不计，但作者的观察表明不一致区域仍然具有有用的学习信号。值得注意的是，作者观察到高度相关的物体类（例如与_bus_和_car_共享视觉特性的类）存在于不一致区域中。忽视这些像素会阻碍标签不平衡问题的解决。例如，Cityscapes数据集中包括像_rider_（_person_的子集）、_bus_和_truck_（_car_的子集）这样的类，它们容易受到这种混淆的影响。考虑到这些挑战，作者提出了一种区域平衡方法，旨在从不一致区域中利用有意义的信息。

总体训练。所提出的方法分为两个阶段。在第一个阶段中，作者使用CLIP生成的全局和局部视图来 Warm up 基础分割模型。这一步确保分割网络充分学习目标数据集的常规模式。在第二个阶段中，作者使用CARB来完善分割网络。作者分别对全局和局部视图应用CARB。

5 Experiments

Experimental Setup

数据集和评估指标。用于性能评估的数据集包括著名的自动驾驶数据集，如Cityscapes（2975个训练，500个验证，1525个测试图像，每个图像有细粒度的标注，包含30个类别，其中19个类别用于公开评估）、CamVid（367个训练，101个验证，233个测试图像，包含32个类别）和WildDash2（3618个训练，638个验证，812个测试图像，包含25个类别）。在作者的实验中，作者只遵循了以前研究的惯例，只评估了11个类别。所有实验都只使用了图像级标签进行训练。图像级标签是从每个数据集的像素级标签获得的。作者使用Mean Intersection over Union（mIoU）作为评估指标，这是一个广泛使用的标准语义分割指标。

实现细节。作者使用ViT-B/16作为CLIP的图像编码器，并使用基于ResNet50的DeepLab-ASPP作为分割网络。在ASPP的最后一层卷积上替换了CLIP的文本嵌入。分割网络使用由MMSeg提供的ImageNet预训练模型初始化。由于类定义和物体单词，作者分别将_vegetation_和_terrain_类名替换为_tree_和_grass_。此外，作者将_person_类替换为_pedestrian_，因为它是一个超集于_rider_。对于从CLIP生成伪Mask，作者采用MaskCLIP。

Ablation Study

每个模块的效果

作者在Tab.1中评估了作者的方法中每个组件的有效性。当作者用额外的局部视图采样（Local）训练分割模型时，它显示了显著的提高5.0%，这意味着通过裁剪和缩放从局部块中获得额外的信息提供了丰富的学习信号。仅用CARB就实现了惊人的提高5.6%，这表明根据其可靠性自适应地重新加权损失在学习带有噪声伪Mask时起着关键作用。

通过将局部视图采样和CARB（Local+CARB）相结合，实现了巨大的提高10.5%。作者用

Local

代替

Dual

，通过在每个迭代中根据CLIP的增强使用伪Mask的修改来重新创建全局视图的Mask。这种修改比

Local

多0.7%。有趣的是，作者的

Dual+CARB

方法相对于

Local+CARB

提高了1.5%，表明各种大小Mask创建和作者的噪声处理策略之间存在协同作用。

裁剪大小和缩放比例的影响

在作者进行实证调查时，作者一致观察到与裁剪其他大小的垂直长方形 Patch 相比，垂直长方形 Patch 在裁剪大小方面具有优越的性能。这一发现得到了图6的支持。作者推测这种趋势在驾驶场景数据集中来自于垂直长结构，例如_pole_和_traffic light_。此外，对于局部视图的512

\times

512 Patch 比256

\times

256更有效。这些实验表明，尽管局部视图只代表了整体场景的较小部分，但过小的尺寸可能无法从CLIP中配备的注意力层中受益。

作者评估了在可变缩放比例下使用局部视图采样。在固定比例从0.5到2.0的范围内，作者观察到在比例为1.0时性能最佳，达到52.1%，而其他比例下性能显著下降。然而，在各种缩放比例下关注类别的性能时，作者确认大型缩放率对小类，例如_traffic light_和_rider_的性能有益。与此同时，大型类，例如_sidewalk_和_wall_的性能下降。由于不同类别之间的性能权衡，作者设置在1.0和2.0之间随机值作为缩放比例。作者的选择导致在小型和大型类别上都取得了最佳性能。

自适应区域平衡的影响

作者将自适应区域平衡策略与固定加权策略进行了比较，其中不一致区域的损失权重

设置为特定值（参见图6（b））。当从0逐渐改变固定权重

到0.5时，作者观察到在权重为0.1时获得最佳分数，而其他值下则显著下降。尽管固定权重策略的最高性能与作者的方法相似（固定策略为51.06%，作者的方法为52.1%），但需要使用验证数据集进行超参数搜索以获得最佳权重。相比之下，作者的方法不需要这样的搜索，因此更适合WSSS场景。

Quantitative Comparisons

对比较的说明。现有的WSSS方法主要针对以物体为中心的数据集，如PASCAL VOC 2012。因此，它们的方法主要是为了区分具有相似尺度的相对简单的物体形状，这仍然是一个有价值的研究方向。由于这个数据集的不匹配，直接将作者的方法与现有WSSS方法进行比较可能并不公平，因为它们针对的是不同的数据集特性。然而，作者将已建立的WSSS方法适应到驾驶场景中，旨在表明现有的框架对作者应用场景无效。

现有的WSSS方法。现有的方法可以分为基于CAM的方法（即图像分类器用于生成伪Mask）和基于CLIP的方法（即CLIP用于生成伪Mask）。其中，作者选择了一些代表性的方法，如（1）AffinityNet，（2）SEAM，（3）1-Stage，（4）SEC，（5）Wang等人[14]，（6）CAM，和（7）ANN。

为了与基于CLIP的WSSS进行比较，作者重复了（8）CLIMS和（9）CLIP-ES在驾驶场景上的结果，两者都使用了相同的信息 Level CLIP，如作者的方法。

Cityscapes。Tab.2展示了作者在驾驶场景中提出的CARB与其他方法的表现。具体来说，作者的方法在Cityscapes测试集上达到51.8%，比Wang, Ma和You提高了26.9%，比之前的基于CLIP的WSSS技术提高了16.8%。

此外，作者还观察到作者的方法在每类上都优于CLIP-ES。图7展示了作者在Cityscapes上的分割结果的定性示例。值得注意的是，CARB成功消除了在_sky_类上的误分类_sidewalk_区域（见第一和第二行）。这些结果从视觉上证实了作者的方法正确地捕获了每个类别并成功减少了预测错误。

CamVid。CamVid数据集的训练图像数量比Cityscapes小得多，只有367张图像。此外，仅使用图像级标签无法区分_car_和_road_类，因为它们出现在所有图像中。然而，作者的方法可以通过利用CLIP模型中的预训练图像-文本信息来区分它们。

Tab.3显示了基于CAM的方法（例如SEC、AffinityNet、Wang、Ma和You以及CLIMS）的性能显著较低，而作者的方法实现了显著较高的性能。这表明，即使数据集的规模较小且具有严重的上下文偏差，作者提出的建议方法也可以解决问题。

WildDash2。由于WildDash2数据集具有极高的多样性，即使对于全监督模型也是一项挑战。基于分类器的WSSS方法，如CLIMS，在mIoU方面表现不佳，仅为1%，甚至比随机猜测还差。这种糟糕的性能是由于由于类别不平衡和复杂的类分布，训练分类器具有困难。由于CLIP-ES和作者的方法都是基于CLIP生成伪Mask，因此这两种方法都提供了相对合理的表现。作者的方法相对于CLIP-ES取得了显著较高的性能，主要观察到在小型类别（如_billboard_、_rider_、_bicycle_和_road marking_）中的性能提升。

6 Conclusion

这篇论文解决了使用传统CAM为基础的弱监督语义分割（WSSS）方法处理驾驶场景数据集时的局限性。为了打破CAM为基础方法的性能瓶颈，作者利用CLIP作为伪Mask生成器。然后，作者提出了全局-局部视图训练，该训练利用CLIP根据相对物体大小生成多样化Mask的特点。作者还提出了一种新的训练策略，即一致性感知区域平衡（CARB）。它通过利用预测一致性和在训练中抑制噪声区域来区分可靠和噪声区域。

通过将这两个组成部分结合在一起，作者的方法成功地（1）学习如何分割小物体，（2）在处理来自噪声区域的挑战性物体时，严重依赖可靠区域。通过大量实验，作者证明了作者的方法在WSSS领域的Cityscapes、CamVid和WildDash2数据集上实现了新的最先进性能。作者的研究引入了一种解决驾驶场景数据集挑战的新方法，并建议在WSSS的未来研究中探索这一方向。