无需训练，kNN-CLIP 在图像分割中的应用！

未来先知

发布于 2024-08-08 11:26:24

6600

在持续分割领域的快速进展尚未能在计算受限的情况下桥接扩展到大型持续扩展词汇量的差距。作者发现，在计算限制下，传统的持续训练会导致灾难性遗忘，无法超越零样本分割方法的表现。作者提出了一种新颖的策略，用于具有零遗忘的语义和全景分割，能够适应不断增长的词汇量，而无需重新训练或承担高昂的内存成本。作者的免训练方法，kNN-CLIP，利用实例嵌入数据库，使得开放词汇分割方法可以在给定领域的单次数据传递中不断扩展其词汇量，同时只存储嵌入，大大降低计算和内存成本。这种方法在大词汇量语义和全景分割数据集上实现了最新的mIoU性能。作者希望kNN-CLIP能够为更高效和适应性更强的持续分割铺平道路，为现实世界中大型词汇量持续分割方法的进步奠定基础。

1 Introduction

在图像分割领域，圣杯是能够基于文本 Query 准确分割任意概念图像。随着视觉-语言模型（VLMs）如CLIP的迅速发展，这一任务变得更加可行。当这些模型应用于语义和全景分割时，显示出在处理广泛的视觉数据词汇方面的潜力。然而，尽管它们在分割基准测试的常见类别上表现出色，但在实现广泛词汇分割方面仍有不足（Shao等人，2023；Udandarao等人，2024）。作者的分析首先确认这些模型在标准数据集上的成功源于它们在特定数据集上的细致调优，例如带有详细标签的COCO Stuff（Caesar等人，2018），这通常与许多其他带有细粒度标注的基准测试类别重叠。例如，COCO-Stuff和ADE-20K有150个类别中有73个类别重叠。以前的工作（Sun等人，2023）已经显示，移除这种重叠的词汇会导致分割性能下降。作者进一步发现，这种细致调优显著降低了来自预训练CLIP模型的开放词汇分割能力，这是由灾难性遗忘引起的。这引发了一个问题：作者能否在不发生灾难性遗忘的情况下，增强这些模型以适应不断增长的数据词汇？

首先，作者研究这些视觉语言模型（VLM）分割算法对包含新类别数据进行的持续训练。作者一致发现，这些模型的持续训练会导致概念遗忘，因为在无意中覆盖过去知识的同时，将新信息编码到一个有限且理解不足的参数空间中。

然而，最近最先进的开放词汇分割方法仍然依赖于包含细粒度标注（如 Mask 和框）的数据集进行微调。这限制了这些开放词汇模型的有效词汇量，_即_，作者观察到训练显著缩小了这些模型的词汇量，限制了它们对更广泛目标和概念泛化的能力。这项工作要解决的主要问题是，如何在没有任何训练的情况下，仅用领域内数据来扩展模型的知识。作者提出的新方法，kNN-CLIP，通过使用一个检索数据库，该数据库将图像与文本描述相匹配，在单次传递中更新支持集以包含新数据，而无需存储任何先前的图像以供重放，从而避免了重新训练的需要。与传统的持续学习方法相比，作者可以保证模型永远不会忘记之前见过的数据，通过单次传递进行学习，通过只存储特征来优化内存，关键的是，由于不需要额外的训练，以最小的计算资源扩展其词汇量。

作者的简单且轻松的方法显著提高了领先语义和全景分割算法的性能，而无需进行额外的训练。作者将该方法应用于最先进的开放词汇语义和全景分割框架FC-CLIP（Yu等人，2023年），在各种具有挑战性的数据集A-847、PC-459和A-150上，分别实现了显著的性能（mIoU）提升——**+2.6、+1.7和+7.2**个百分点。这种改进是在小计算和内存开销的情况下实现的，且没有任何训练成本。如图1所示，作者还定性展示了作者的方法可以用于多种用途，包括概念定制和人脸识别。

总体而言，作者研究的主要贡献包括：

识别开放词汇分割器中的退化问题：作者揭示了这样一个悖论，即使用下游标注对视觉语言模型(VLM)进行微调，极大地降低了它们识别广泛VLM词汇的能力，这说明在开放词汇环境下发生的灾难性遗忘限制了开放词汇分割的范围。
无需训练的持续词汇扩展：作者引入了一种新技术，kNN-CLIP，它可以在不进行额外训练的情况下，持续扩展图像分割模型的词汇量。这种方法利用一个持续扩展的支持集，将概念预测的问题重新塑造为图像检索任务。
在多种数据集上的一致性提升：作者提供了大量实验证据来证明作者方法的有效性，在具有长尾分布的数据集（A-847，PC-459，A-150）上的语义分割和全景分割中均显示出显著的提升。

2 Related Works

检索增强模型。在自然语言处理领域，检索增强生成（RAG）已被证明是一种通过利用外部结构化数据来增强大型语言模型（LLM）的富有前景的技术。RAG的动态特性促进了知识的持续更新，使模型能够无缝地融合特定领域的信息。这对于知识密集型任务特别有益（Lewis等人，2020；Wang等人，2022；Khandelwal等人，2019；Shi等人，2023；Petroni等人，2023）。

受其在NLP中成功的启发，研究行人现在正在探索RAG在计算机视觉任务中的应用。例如，REACT（Liu等人，2023a）提出了一种方法论，旨在检索相关知识并相应地为特定领域学习定制化的视觉模块。同时，SuS-X（Udandarao等人，2023）和C2C（Prabhu等人，2023c）引入了框架，利用检索到的支持集为开放集领域的CLIP分类提供更加准确的分类。

尽管这两项工作在将基于检索的方法应用于视觉感知方面显示出潜力，但它们没有讨论如何成功地将这些技术应用于视觉分割。Hummingbird（Balazevic等人，2024）建议在密集场景理解任务中使用简单的非参数最近邻检索作为解码器。

此外，除了整合新的视觉特征外，RECO（Iscen等人，2023）还证明了通过跨模态融合将文本表示与原始和检索到的嵌入结合起来的有效性。然而，Hummingbird（Balazevic等人，2024）和RECO（Iscen等人，2023）都需要训练以更好地将检索增强整合到他们的流程中；相比之下，作者的方法无需训练努力，同时提供了更快的适应性和强大的性能。

图像理解中的开放词汇学习。 受益于视觉-语言模型的进步，视觉模型展示了开放词汇图像理解的潜力，以打破预定义封闭集合概念的约束。特别是对于密集预测任务和 OVSeg 等工作专注于利用来自CLIP的跨模态监督，将类不可知的 Mask Proposal 与语言概念对齐。ODISE（Xu et al., 2023a）和FC-CLIP（Yu et al., 2023）进一步探索了这一想法，并通过改进视觉编码器和 Mask Proposal 策略，在语义和全景分割上都取得了有希望的性能。然而，这些工作一个关键的局限性是在概念受限的密集预测数据集上进行微调时出现的灾难性遗忘，导致模型词汇量严重下降。为了应对这一挑战，免训练方法如ReCO 和CaR旨在通过递归剪枝标签空间，实现CLIP模型的高效适配。尽管这些方法规避了灾难性遗忘的问题，但它们仍无法容纳不断扩大的大词汇量。

因此，在这项工作中，作者利用检索增强以实现持续开放词汇图像理解。

面向语义分割的持续学习。 与开放词汇语义分割相反，持续学习最初并不打算包含一个极大的词汇空间，而是保持不断扩展词汇空间的能力。然而，持续学习面临着灾难性遗忘和语义漂移的问题。为了缓解这些问题，iCaRL（Rebuffi等人，2017年）提出在持续学习阶段重放最具代表性的样本，后续研究尝试优化相关的记忆负担。此外，ALIFE（Oh等人，2022年）提出了特征重放方案以减少内存需求。更多研究探索如何利用记忆中的特征来保留已知知识（Yoon等人，2022年；Yu等人，2020年；Wang等人，2021年；Michieli和Zanuttigh，2021年；Lin等人，2022a年）。使用记忆特征的一个显著缺点是特征的表示能力可能不足，这阻碍了持续学习的性能。无论是使用超类知识还是动态更新存储的特征，都减轻了问题，但本质上仍未绕过问题。作者的方法同样旨在动态扩展词汇空间，与特征重放方法相似，因为作者同样构建了一个特征支持集。然而，作者的方法无需训练即可操作，并使用了一个支持集，该支持集通过自监督学习技术（Caron等人，2021年）学习强大的特征，内存需求低。

3 Continually Expanding Retrieval-Augmented Dense Prediction

作者提出了一种新颖的、无需训练的框架，用于不断进行词汇扩展的密集预测，该框架适用于不同领域以及各种密集预测任务。受到大型语言模型中使用的检索增强生成（RAG）方法的启发，作者的框架利用一个可定制的嵌入数据库，在推理过程中直接融入特定领域的知识，无需进行额外的训练。

这种方法适用于一系列密集预测任务，包括语义和全景图像分割。作者首先评估每个 Query Mask 的CLIP分类结果的置信度水平。对于低于给定置信度阈值的 Query ，作者提取DINO特征，并使用 Mask 池化生成 Query 嵌入。这些嵌入随后通过基于余弦相似度的kNN搜索算法与矢量化数据库进行匹配。对于找到的最相似的嵌入，作者通过沿类别向量堆叠相似性，并指导这些嵌入的标签，创建一组关注置信度的伪逻辑值。然后通过给定的加权参数将这一检索过程的结果与初始CLIP结果结合。现在作者提供作者这种无需训练方法的细节。作者首先描述嵌入构建过程，并详细说明 Query 机制。

Designing Continually Expanding Embedding Databases

作者框架的一个吸引人的特性是数据库的动态扩展性和基于个性化兴趣的数据库构建定制。根据用户定义的应用指定的目的（如智能零售、物种分类等细粒度设置），数据库可以通过手动策划、在线基于网络的收集或合成数据源从各个领域获取。

数据库构建。为了获得数据库图像的独特向量表示，作者采用了如图2所示，对从图像中提取的、由预训练编码器得到特征进行 Mask 池化（mask-pooling）。作者的输入包括一个传入图像（）以及与之对应的个类无关的 Mask ，这些 Mask 可以是语义的、实例密集 Mask ，或者是边界框 Mask （）和类别注解（），其中包含与 Mask 对应的类别。作者使用基于Vision Transformer (ViT, Dosovitskiy et al. (2021))的编码器()提取这幅图像的特征，产生。在这里，，其中表示特征的嵌入维度，和分别代表维度。

然后，通过连接所有图像的嵌入集和类别集来构建向量化的嵌入数据库，使得，如果总共有个嵌入。新的嵌入也可以持续添加到数据库中，重复上述过程。请注意，_作者不存储任何图像以供回放，这降低了存储成本并允许删除之前看到的数据。_

Inference Using the Continually Expanding Embedding Databases

建立的嵌入数据库在推理过程中作为检索源，以增强各种下游视觉模型的能力，如图3所示。对于给定的一张测试图像以及一组 Query Mask Proposal 和通过第3.1节相同方法获得的相关特征嵌入，作者对每个 Query 在嵌入数据库中执行以下k-最近邻（kNN）搜索：

作者接着利用检索到的样本类别标签和余弦相似度得分来构建以下基于检索的预测的、考虑置信度的伪逻辑回归：

作者在类向量上累积各类别的相似性，并通过softmax操作将其正则化为概率分布。作者认为，实例嵌入之间更高的相似性，如果反映在更频繁的检索中，意味着基于kNN的预测具有更高的置信度。然后，作者利用预测的逻辑值来增强来自预训练视觉模型的原始预测逻辑值，通过以下方式的类别的逻辑值修改：

作者在原始预测上设置了一个置信度阈值，将低于该阈值的logit用基于检索的预测中的相应值替换。

作者使用基于余弦相似度的权重构建伪-logit，这仅能提升在嵌入数据库中存储标签的任务或类别的下游性能。如果 Query 的真实标签不在数据库中，或者检索结果的余弦相似度太低，作者的方法自然会倾向于使用原始预测。这保留了广泛的零样本能力和预训练期间获得的知识，这些能力在对其进行了训练的概念上能做出准确的预测（Udandarao等人，2024年）。这种灵活的设计使作者能够动态扩展到更大的词汇量，并有效地解决最近凸显的概念遗忘问题（Mukhoti等人，2023年）。

4 Experiments

作者展示了作者无需训练的方法的结果，旨在改进大规模数据集上的开放词汇密集预测，包括语义和全景分割，在定制环境中不断测试扩展的词汇表。

Implementation Details

数据库构建。 作者的数据库是通过使用具有4个注册标记的ViT-Giant架构的DINOv2（Oquab等人，2023年）从每个数据集的训练集中提取特征创建的。作者选择“键”作为作者的特征表示。作者将图像调整到，并获得一个尺寸为的图像特征，因为所选择的ViT的 Patch 大小是14。然后，作者进行 Mask 平均池化以将特征尺寸缩小到1536。接着，作者使用FAISS将缩小到1536维的特征及其对应的标签存储到数据库中。请注意，作者不存储过去的图像。

k-近邻搜索。 作者使用FAISS和余弦相似度度量进行特征检索。作者的方法采用了一种暴力方法来识别最接近的嵌入，但作者还探索了近似搜索方法，如分层可导航小世界（HNSW）来提高推理时的效率（Prabhu等人，2023a）。作者将比较HNSW近似与精确搜索，并在作者的消融研究中详细说明其中的权衡。在密集视觉任务中检索到的最近邻数量为16，更多细节将在消融部分中介绍。

增强FC-CLIP。 作者将作者的方法融入到当前最先进的开放词汇分割方法FC-CLIP中，该方法根据Mask2Former（Cheng等人，2022年）生成 Query Mask 并为每个 Mask 分配类别概率。作者使用原始预测类别概率与kNN-CLIP方法检索到的预测类别概率的线性组合。随后，作者遵循FC-CLIP通过几何集成融合词汇内分类分数和检索增强的词汇外分类分数。这使得作者能够在不丢失预训练知识的情况下增强分布外分类。

Catastrophic Forgetting Restricts Open-Vocabulary Capabilities of Models

动机。 作者研究密集预测器在开放词汇性能上的变化，这些模型被训练去识别新类别时。具体来说，作者比较了模型在训练前后的分割性能，并报告了性能的退化情况。

设置。 作者采用了来自CoMFormer（Cermelli等人，2023年）的类别增量持续学习设置。作者在COCO全景的语义分割基准（拥有330K张图像和80个类别）上进行了基准测试，并将ADE20K（周等人，2019年）作为持续数据集（拥有27K张图像和150个类别）。首先，作者在COCO全景上训练了像FC-CLIP这样的模型，然后以每个时间步5、10和30个类别，以及一次迭代的计算预算在ADE20K上逐步更新这个基础模型（Prabhu等人，2023b;a）。作者遵循Mask2Former（程等人，2022年）的方法，在FC-CLIP（余等人，2023年）模型上使用他们的损失函数，并在持续训练后分别对COCO Panoptic和ADE20K中所有类别的mIoU进行评估。

结果。 如表1所示，在使用简单的持续学习基准时，无论增量类的数量如何，作者在持续学习数据集ADE20K和基础数据集COCO-Panoptic上观察到一致的性能下降，分别约为6 mIoU和24 mIoU。在ADE20K上的退化可以归因于在学习跨时间步时发生的灾难性遗忘。此外，这导致概念遗忘，即如在COCO-Panoptic上的性能所衡量的，开放词汇性能大幅下降。这表明迫切需要技术手段，使得分割模型可以在不丧失其开放词汇分割能力的情况下，持续扩展其对新概念词汇的能力。作者展示了作者提出的不需要训练的方法kNN-CLIP，可以有效缓解概念遗忘，导致在ADE20K上mIoU显著提高了，在COCO Panoptic上提高了 mIoU。

Comparison with Continual Segmentation Approaches

设置。 作者将作者的方法与流行的监督学习方法 Mask2Former（Cheng et al., 2022）以及目前最先进的持续学习方法 CoMForner（Cermelli et al., 2023）进行了比较。作者采用了之前描述的相同实验协议用于作者的方法。这些监督模型最初在第一个100个类别上进行训练，然后逐步更新接下来的50个类别。随后，作者使用平均交并比（mIoU）指标评估了这些模型在ADE20K数据集中的所有150个类别上的性能。

结果。 如表2所示，当作者将增量类别数量减少到50类以内时，Mask2Former（Cheng等人，2022）和CoMForner（Cermelli等人，2023）的表现出现了较大的性能下降。相比之下，kNN-CLIP在保留先前知识和减轻知识丢失方面具有显著优势，并且本质上不受增量类别数量的影响。这种韧性归功于作者动态且不断扩展的嵌入数据库，它在持续学习场景中显著提高了作者方法的有效性。### 检索增强全景分割

设置。 作者的探索扩展到全景分割，进一步验证了在实例级开放词汇识别上的可辨识性。作者在ADE20K和COCO全景数据集上评估了作者的方法。为了全面评估性能，作者采用了三个关键指标：全景质量（PQ），平均精度（AP）和平均交并比（mIoU）。

结果。 如表3详细所示，在没有进行任何训练的情况下，从附加支持集中检索信息显著提高了在ADE20K上的性能，PQ、AP和mIoU分别上升了**+2.8、+0.7、+7.2**。总的来说，无需任何训练，开放式词汇全景分割的性能可以得到显著提升。

提升基础数据集性能。 作者强调，作者观察到在COCO全景数据集本身上，PQ提升了**+0.4，AP提升了+0.2，mIoU提升了+1.8**。这表明即便使用基准模型训练数据集（在本例中为COCO Panoptic）进行检索，也能显著提高分割的准确性。作者的方法补充了开放式词汇全景分割任务的进展，这些结果表明了作者一致实现的性能提升。

Retrieval Enhances Semantic Segmentation

设置。作者的研究扩展了对于kNN-CLIP在无需训练的连续词汇扩展影响的研究，应用到语义分割上，测试其在密集预测任务中的有效性。作者分析了kNN-CLIP在五个不同数据集上的表现：ADE20K和A847（Zhou等人，2019），包含27K图像，Pascal Context(PC)-59/459（Mottaghi等人，2014），以及Pascal VOC-21（Everingham等人，2010），包含10K图像。这些数据集在像素 Level 上包含了不同粒度的标注，涵盖了从150、847、21、59和459个类别广泛的语义概念。作者使用了与4.1节相同的FC-CLIP Backbone 网络。对于所有基准测试，作者使用mIoU指标来评估分割性能。结果。作者的方法在表4中的有效性得到了清晰展示，在各个基准测试中均显示出显著的提升。与 Baseline FC-CLIP模型相比，作者在A-847、PC-459、A-150、PC-59和PC-21上的mIoU分别提升了**+2.6、+1.7、+7.2、+4.4、+3.5**。在检索增强的情况下，长尾数据集（如A-847和PC-459）的性能通常有所提高。作者的方法旨在补充开放词汇语义分割的进展，这些结果强调了作者在处理复杂分割任务时的鲁棒性和适应性。

Comparisons with Retrieval-based Approaches

比较。 作者还与Hummingbird（Balazevic等人，2024年）进行了比较，后者提出了一种新颖的预训练框架，适用于快速下游适配。作者将作者的语义分割结果与Hummingbird在Pascal VOC和ADE20K上的最佳表现模型进行了对比。这两种方法的结果都是通过从相同评估的下游数据集中执行最近邻检索得出的，没有进行任何进一步的训练。

结果。 如表5所示，作者的方法相较于最佳的Hummingbird模型，在PASCAL VOC和ADE20K数据集上分别提高了**+8.0** 和 +5.5 mIoU。这一结果进一步展示了作者直接方法相较于其他基于检索方法在强大性能和快速适应性方面的优势。

Ablations

置信度阈值和置信度加权的影响。 作者研究了不同超参数设置对性能的影响，重点关注两个关键参数：置信度阈值和检索到的置信度加权。置信度阈值的选择主要受kNN检索模块在不同数据集上的准确度影响。作者的实验是在A-847数据集上进行的。如表6所示，当在3.2节中表示为的置信度阈值设置为0.7，同一节中表示为的置信度加权设置为1.2时，可以实现最高的mIoU，即最佳性能。

邻居数量检索的影响。 在密集视觉任务中，例如语义分割，作者的方法是通过融合来自16个最近邻居的信息来增强每个 Query Mask 的伪分类逻辑值。此外，作者还进行实验来研究近似最近邻搜索变化的影响。为了优化作者的推理时间，作者探索了近似最近邻搜索算法来减少运行时间。作者在特征检索模块中应用了分层可导航小世界（Hierarchical Navigable Small World）方法。如预期的那样，作者观察到推理时间和模型性能之间的权衡。正如表8所示，采用HNSW可以加快运行时间，但会与mIoU妥协。对于中等大小的支持集，例如包含大约220k特征的ADE20K，采用暴力搜索是首选；如果支持集的大小很大，就像拥有860k特征的COCO那样，近似最近邻搜索可以在推理时间和准确性之间提供更好的平衡。

推理时间。作者根据作者对FC-CLIP的实现来评估推理时间，只考虑推理一幅图像所需的时间。检索数据库是预先构建的，确保作者的评估仅关注推理成本。通过将额外的特征提取器DINOv2集成到现有架构中，作者注意到如表8所示，在推理速度上有所妥协。此外，由于作者使用了暴力搜索，kNN搜索模块导致了更慢的推理时间。作者观察到，通过实施近似邻域搜索技术作为暴力搜索的替代方法，可以提高推理速度，但近似邻域搜索会导致性能略有下降。

5 Conclusion

在作者的研究中，作者检查了与早期开放词汇方法中使用的词汇相关的限制，这些方法依赖于CLIP，并且作者还强调了当视觉-语言模型（VLMs）使用下游标注进行微调时性能如何下降。作者没有采用持续学习方法，而是引入了一种名为kNN-CLIP的新方法，该方法不需要训练，并利用最近邻检索来预测密集视觉任务。为了适应不断增长的词汇量，作者采用了一个动态检索数据库，绕过了重新训练的需求。作者的方法在多个数据集上展示了强大的性能，并且显著优于其他方法。

参考

[1].kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-31，如有侵权请联系 cloudcommunity@tencent.com 删除

数据

本文分享自未来先知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度