前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !

长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:06:58
1450
发布2024-07-08 14:06:58
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

在现实世界中,语义分割技术的成功应用是过去十年计算机视觉界最激动人心的成就之一。 尽管长尾现象在许多领域已经得到了研究,例如分类和目标检测,但在语义分割中却未得到足够的关注,这已成为将语义分割技术应用于自动驾驶和虚拟现实中的一个不可忽视的障碍。因此,在这项工作中,作者关注一个相对未被深入探索的任务设置——长尾语义分割(LTSS)。 首先,作者从场景、目标和人三个不同方面建立了三个代表性的数据集。 作者进一步提出了一种双指标评估系统,并构建了LTSS基准,以展示语义分割方法和长尾解决方案的性能。 作者还提出了一种基于 Transformer 的算法来改进LTSS,即基于频率的匹配器,它通过一对多匹配解决了过抑制问题,并自动确定每个类别的匹配 Query 数量。 鉴于这项工作的全面性和揭示问题的重要性,本工作旨在推动语义分割任务的实证研究。 作者的数据集、代码和模型将公开可用。语义分割,长尾学习,基于频率的匹配器。

I Introduction

语义分割[1]使得机器能够以像素 Level 识别图像,这在实际应用中令人印象深刻。由于社区的持续努力,语义分割技术已经取得了显著进步,并发展出了新的能力,例如,领域适应[2, 3],半监督[4, 5],弱监督[6, 7],小样本[8, 9]和零样本语义分割。

由于长尾现象[12]在现实世界中普遍存在,它显著限制了智能模型的应用。因此,这个问题已经成为计算机视觉基础课题的关注焦点,即分类、目标检测和实例分割。虽然语义分割也代表了一项基本任务,但研究行人对长尾语义分割(LTSS)的关注不够。例如,在自动驾驶中,不仅需要准确检测和分割像汽车和行人这样常见的目标,还需要对像路面碎片或异常道路标志这样罕见的目标进行准确检测和分割,以确保安全导航[13, 14]。

最近,一些研究[5, 15]调查了这一现象并提出了解决方案。然而,这些研究大多关注于在现有平衡数据集中不显著的长尾分布;因此,提出的针对LTSS的方法的有效性无法得到充分评估,且缺乏针对性的评估指标。基于现有研究,作者总结了阻碍该领域的三个重要缺失点:全面的数据集,特定的评估系统高级基准。在本文中,作者致力于正式解决LTSS任务,建立一个研究基础以吸引更多研究行人。

图1:长尾语义分割(LTSS)样本的说明来自作者构建的三个数据集。从左到右,频率分别为常见、一般和罕见。

作者建立了一个全面的LTSS实证研究。作者首先构建了三个具有多种数据场景、不同长尾程度和不同数据规模的LTSS数据集。为了揭示这些方法的效果,作者设计了一个双重指标评估系统,以衡量在不同频率类别上的性能。此外,作者分析了之前来自其他任务的长尾解决方案与实际之间的差距,并通过实验证明它们的表现。为了提高这项任务的成果,作者提出了一个基于 Transformer 的解决方案,显著提升了在低频类别上的性能。

为了降低无意义的标注成本,作者努力尽可能多地复用现有的主流语义分割数据集,并构建了三个长尾场景分割(LTSS)数据集:以场景为中心的ADE20K-Full,场景与目标并重的COCO-Stuff-LT,以及以人为中心的MHP-v2-LT数据集。图1展示了所提出LTSS数据集的一些示例。ADE20K-Full是ADE20K[16]的扩展版本,是一个自然且极端的LTSS数据集。作者保留了874个类别,依据[17]。另外两个LTSS数据集建立在平衡的原始收集基础上,这隐藏了一个直接的技术挑战:作者如何在一个平衡的分布中进行采样,以提高其长尾性?作者提出了一种贪心算法,通过多次迭代消除一些数据。根据[18],作者采用基尼系数[19]来评估数据集的长尾性。每次迭代确保剩余数据的基尼系数得到改善,达到预期阈值后即可完成迭代。考虑到平衡评估,作者仍然使用原始验证集来衡量性能。在不同的数据场景、不同的数据规模和不同的长尾程度下,作者建立的这三个LTSS数据集为实际应用中的语义分割模型提供了全面且无偏的评价。

此外,作者建立了一个双指标评价系统,从易于理解、普遍性、全面性、客观性和公平性等方面评估LTSS模型的性能。与图像分类和目标检测不同,语义分割可以在图像和像素层面衡量长尾性。因此,作者根据训练集的图像级和像素级基尼系数,将验证集划分为频繁、常见和稀有分割,并使用mIoU指标[1]进行评估。双指标评价系统能够很好地反映长尾学习方法的特点,旨在为后续研究提供良好指导。

在提出的三个LTSS数据集和双指标评价系统的基础上,作者首先评估了两种主流的语义分割模型:DeepLab-V3-Plus[20]和mask2former[21]。为了展示现有长尾方法的效果以及任务设置之间的差异,作者从不同方面评估了mask2former框架下的三种经典长尾学习方法,即过采样(RFS[22])、数据增强(copy-paste[23])和类别级损失重加权(seesaw loss[24]),并展示了它们对稀有、常见和频繁类别的影响。实验验证了这些现有的长尾解决方案不适合LTSS任务,这个任务值得在研究专用方法时给予更多关注。

考虑到LTSS的挑战,作者开发了一个基于Transformer的算法,名为基于频率的匹配器,它将多重匹配思想引入到二分图匹配[25]中。对于语义分割,在mask2former框架下,一对一匹配是不必要的,它允许目标匹配多个 Query 。在作者的方法中,根据类别频率分布,低频类别会匹配到多个 Query 以增强监督。作者的方法提供了一个新视角,即从 Query Level 平衡每个类别不同频率的监督。大量实验表明,作者的方法优于 Baseline 。由于基于频率的匹配器实现简洁,作者建议将其作为未来LTSS模型的基本组成部分。

总之,作者工作的主要贡献如下:

  1. 本研究探讨了语义分割中的长尾现象,并致力于从数据集、评估系统和高级基准三个方面建立LTSS研究的基石。作者相信,对于社区来说,拥有专门为LTSS设计的正式化设置、基准和评估指标是非常有价值的。
  2. 本文阐述了LTSS与之前长尾任务之间的区别。作者讨论了将现有的长尾解决方案应用于LTSS的不足,并提出了一种针对性的基于匹配的LTSS解决方案。
  3. 在三个LTSS数据集上进行的广泛实验表明,作者提出的基于频率的匹配器方法优于经典的长期学习解决方案。所有的内容都将公开可用,以促进LTSS的经验研究。

本文的其余部分组织如下:第二节介绍了与语义分割、长尾学习和基于Transformer的分割相关的先前工作。第三节介绍了LTSS任务的 数据集设计、评估系统和高级基准。实验和分析将在第四节中呈现。第五节作者提供了结论。

II Related Work

Semantic Segmentation

语义分割技术自从全卷积网络[1]模型提出密集像素预测以来,已经快速发展。众多研究聚焦于图像上下文学习,例如,图模型[26],全局感受野[27],注意力机制[28]和对抗性训练[29],这些方法显著提高了语义分割的性能。最近提出的 Transformer 网络[30, 31]将语义分割视为集合预测问题,并将其与实例分割[32],全景分割[33]和视频分割[34]任务联系起来,建立统一的分割架构[17, 21],这逐渐成为新趋势。相比之下,语义分割技术的持续改进导致了聚焦实际场景的新研究方向。例如,领域自适应语义分割[35]关注使模型能够在跨领域学习鲁棒特征。弱监督语义分割[36, 37]试图仅用图像级目标监督来学习密集像素预测。然而,少样本语义分割[38, 39]旨在尽可能使用少量样本进行分割。更进一步,零样本语义分割[10, 11]在不使用任何标记样本的情况下预测新类别。

与这些工作相比,作者的研究聚焦于语义分割中的长尾现象[12],这被之前的研究行人很大程度上忽视了。作者的目的是从长尾分布中学习可以同时涵盖“ Head ”和“尾部”类别的密集像素预测,这将在推进语义分割的实际应用中发挥不可忽视的作用。

Transformer-based Segmentation

近期,最初为自然语言处理设计的基于自注意力的 Transformer 网络,在多种视觉处理任务中取得了巨大成功。越来越多的研究显示,视觉 Transformer 能为分割任务提供更强大、统一,甚至更简单的解决方案。图像分割领域的开创性工作之一是分割 Transformer (SETRs)[40]。这项工作利用 Transformer 框架将图像编码为一系列 Patch 的序列,并融合CNN解码器以提高特征分辨率。作为SETR的后续工作,Segmenter[41]是一个基于纯 Transformer 方法的编码器-解码器架构,用于语义分割。与SETR不同,Segmenter使用 Mask Transformer 进行解码,并将标签信息融入到解码器中进行建模。为了克服视觉 Transformer 的效率限制,SegFormer[42]设计了一个轻量级且分层结构的 Transformer 编码器,以及一个多层感知机(MLP)解码器,它共同确保了语义分割的速度、准确性和鲁棒性。有些工作已经对解码器进行了改进[17, 43]。例如,mask2former[21]用 Mask 交叉注意力替换了标准 Transformer 解码器中使用的交叉注意力,这使得 Query 能够只关注围绕预测段中心的局部特征。后续研究[44, 45, 46]对mask2former上述组件进行了改进,使基于 Transformer 的分割成为目前的主流和表现最佳的分割框架。

Long-tailed Learning

在自然或现实生活中,随机变量的分布比均匀分布更为普遍,即长尾分布[12]。因此,在长尾数据上训练的模型在尾类上的表现显著差于头类。这一现象最早在图像分类任务中引起关注[47, 48],并且已经发展出各种方法来提高尾类的识别性能。采用过采样[49, 50]和数据增强[51, 23]技术来增加尾数据的样本数量,以实现平衡的学习效果。成本敏感的重加权[52, 24]旨在通过为不同类别或困难样本分配权重来修改梯度,以提高尾类的建模能力。LVIS[22]数据集为社区引入了新的方向:长尾目标检测/实例分割导致一系列新问题。例如,尾类容易被误认为是背景信号,导致检测遗漏[53]。另外,稀疏的尾样本通过简单学习难以与背景信号区分,导致尾类的 Mask 不准确[54]。

尽管长尾学习越来越受到关注,但在视觉识别的基本任务之一——语义分割中,它存在明显的不足。此外,先前的研究表明,由于不同任务设置导致的学习架构和监督形式的差异,也会引发新的长尾问题。因此,社区迫切需要为语义分割任务建立长尾学习系统,并提出针对性的解决方案。

III Long-tailed Semantic Segmentation

在本节中,作者在第三节A部分首先从数学上构建作者的问题。然后在第三节B部分,作者详细指定了LTSS数据集的构建过程和数据集统计。在第三节C部分,作者介绍了评估系统。最后,在第三节D部分,作者提出了基于频率的匹配器方法用于LTSS任务,并将其与经典的长期解决方案进行比较。

Problem Formulation

Dataset Design

在构建LTSS数据集的过程中,作者首先提出在图像和像素 Level 上测量数据集的长尾性。然后,引入了一种贪心算法,从现成的平衡数据集中构建LTSS数据集。因此,建立了三个LTSS数据集,并且详细描述了每个LTSS数据集的统计信息。

平衡分布中的样本。 如表1所示,大多数现有的语义分割数据集(例如,ADE20K [16],COCO-Stuff [56] 和 MHP-v2 [57])在图像 Level 表现出一定程度的长时间尾分布。然而,与图像分类和目标检测的长尾数据集(例如,ImageNet-LT [55],Places-LT [48],和 LVIS-v1 [22])相比,这些数据集包含的图像较少。令人欣慰的是,作者发现ADE20K的扩展版本ADE20K-Full [16, 17] 是一个自然的长时间尾语义分割数据集,在图像 Level 和像素 Level 都具有显著的长尾性。因此,作者将 ADE20K-Full 视为 LTSS 数据集,并建议将其作为主要基准。

仅使用一个数据集不足以全面衡量长尾算法的有效性;因此,作者希望建立几个多样化的低成本LTSS数据集。受到 [48] 的启发,在现成的平衡数据集中采用分布 进行长尾子集采样是一种有效的方法。然而,这是一个复杂的优化问题,因为LTSS数据集中的每个样本都有多个标签,并且很难找到一种直观的方法来获得可控分布的子集。ImageNet-LT 和 Places-LT 是单标签数据集,而 LVIS-v1 采用联合数据集设计,巧妙地避开了这个问题。为此,作者使用一种简洁但有效的贪心算法,通过不断迭代消除一些数据来提高剩余子集的基尼系数。

基于以上过程,作者从 COCO-Stuff 和 MHP-v2 数据集中各采样了一个子集,分别表示为 COCO-Stuff-LT 和 MHP-v2-LT。这两个数据集加上 ADE20K-Full,构成了作者工作建立的三种 LTSS 数据集。

数据集统计。表1展示了三个构建的LTSS数据集的几项重要统计信息。图2展示了这些LTSS数据集在图像 Level 和像素 Level 上的标签分布。在图像数量方面,这三个数据集之间存在明显差异,特别是在训练样本数量上。COCO-Stuff-LT的训练集最大,约为40,679张图像,相当于原始COCO-Stuff的约35%,而ADE20K-Full和MHP-v2-LT的训练集样本分别有25,574和6,931个。在类别数量方面,ADE20K-Full以847个类别位列第一,包括建筑和天空等常见类别,以及剑和滑雪板等罕见类别。这也是为什么ADE20K-Full是一个自然的长尾数据集的原因。COCO-Stuff-LT和MHP-v2-LT是本文生成的LTSS数据集。作者保留了它们原始版本的类别数量(分别为171和59类),与ADE20K-Full形成显著差异,这将有利于衡量LTSS算法在不同类别规模上的性能。一个更显著的特点是,这三个LTSS数据集基于不同的场景:ADE20K-Full以场景为中心,COCO-Stuff-LT既以场景为中心也以物体为中心,而MHP-v2-LT以人为中心,基本上涵盖了当前主流的野外场景。

关于长尾分布,ADE20K-Full的为0.865,比原始ADE20K(0.645)约高出34%。ADE20K-Full的达到了惊人的0.934,表明其中有许多小规模目标或物体。COCO-Stuff-LT和MHP-v2-LT的基尼系数与原始版本相比也显著提高,证明作者提出的贪心算法能够有效地在平衡数据集中采样长尾子集。作者可以更直观地观察到LTSS数据集与平衡数据集在标签分布上的差异。这种差异主要体现在尾部分类上,其图像数量相似。

Evaluation System

长尾图像分类和目标检测有相似的评估原则。例如,长尾图像分类根据训练集的标签分布将所有类别分为三组:多示例(超过100张图像),中示例(21100张图像),和少示例(120张图像);此外,还为每组计算top-1分类准确率。对于长尾目标检测/实例分割,以LVIS-v1数据集为例,根据类别被标注的图像数量将1,203个类别分为三个桶:频繁(超过100张图像),常见(11100张图像),和稀有(110张图像)。为这三个桶计算平均精度(AP)[58]。

考虑到三个LTSS数据集标签分布的差异,作者将固定的阈值改为相对比例,即,的前60%为频繁,中间20%为常见,最后20%为稀有。基于和,形成了两种划分模式:图像 Level 和像素 Level 。经典的平均交并比(mIoU)[1]作为评估指标,并独立于不同划分进行计算。这是为LTSS算法提出的双指标评估系统,在作者的实验中被采用。

Advanced Benchmark

在本节中,作者首先回顾了经典的长尾解决方案,并分析了它们与长尾语义分割任务(LTSS)之间的差距。基于提出的LTSS数据集和评估系统,对三种方法进行了评估。然后,作者提出了一种基于频率的匹配器新方法,以解决LTSS问题。这些经典的长尾解决方案和作者提出的基于频率的匹配器方法建议作为后续LTSS研究者的基准。

回顾经典解决方案。目前,长尾学习已经形成了几种主流解决方案,例如数据处理方法、成本敏感加权、解耦表示和迁移学习。这些经典解决方案试图从表示学习的不同角度解决头尾类别之间的不平衡问题,并成功应用于长尾图像分类和目标检测。为了观察经典长尾学习方法对语义分割框架[21]的适应性,以及LTSS与其他长尾任务之间的相似性和差异性,作者从不同的方面(即采样策略、数据增强和损失函数)选择了以下三种具有代表性的经典长尾学习方法,以验证它们对LTSS的影响。

然后作者研究了采样策略、数据增强和损失函数。

(1) 重复因子采样(RFS)[22]是一种过采样方法,通过增加包含尾类别的图像的采样频率来执行重新平衡操作;这是在长尾目标检测/实例分割[59, 60]中广泛使用且有效的解决方案。

(2) Copy-Paste [61, 23]是一种混合图像增强方法,通过从一个图像复制实例到另一个图像来扩展训练样本。

(3) 看板损失[24]采用了一种梯度引导的重新加权机制。每个分类器的累积正梯度与负梯度的比例被用来独立增加正梯度的权重并减少负梯度的权重。

上述三种解决方案与mask2former结合使用。采用超参数调整以获得公平的结果。

值得注意的是,由于从长尾分布中高效学习已经在图像分类[48, 62]和目标检测/实例分割任务[22, 63]中得到了充分研究,但它们在LTSS任务中存在差距。首先,语义分割是一个像素级的视觉识别任务,现有的图像和区域 Level 的长尾解决方案不适用。其次,存在独特的先验知识(例如场景图[64, 65]、目标关系[66, 67]和人身体结构[68, 69, 70]),这些知识可以帮助在语义分割应用场景中进行尾类别识别;然而,这需要开发针对性的解决方案。因此,仍然需要特定的LTSS解决方案。

基于频率的匹配器。 尽管上述经典解决方案旨在解决长尾问题(即,在LVIS [22]上解决长尾实例分割问题),但数据集和任务之间的差异可能会削弱它们的效果。特别是,LVIS是一个联合数据集,这意味着重采样和 Copy-Paste 策略可以直接增加低频类别实例。但是,当这些方法应用于提出的LTSS数据集时,它们也会导致高频类别重复。因此,一个关键问题是增强仅来自LTSS任务中低频类别的监督。

IV Experiments

为了帮助研究者更清楚地理解长尾场景分割任务,并证明所提出频率匹配器(FM)的有效性,作者在本节中进行了全面的实验和分析。

实现细节

实验设置。作者采用了现成的DeepLab-V3-Plus (OS16)2和mask2former3,它们基于ResNet-50 [71]主干网络,在三个构建的长尾场景分割数据集(ADE20K-Full, COCO-Stuff-LT, MHP-v2-LT)及其平衡版本(ADE20K, COCO-Stuff, MHP-v2)上进行实验。作者遵循原始实现的超参数设置。每个模型都经过120个周期的训练。对于数据增强,作者使用了随机缩放和水平翻转,然后对所有实验(除了使用Swin-L [72]的640640的mask2former之外)进行固定大小的裁剪至512512。测试时未使用增强技术。除非另有说明,所有实验都使用相同的设置。实验是在PyTorch中实现的,并在每张卡拥有40GB内存的4个NVIDIA A100 GPU上进行训练。为保证可复现性,作者的代码和模型将公开提供。**经典解决方案。**作者评估了三种结合mask2former在长尾数据集上的经典长尾解决方案(RFS、copy-paste和seesaw loss)。为了公平比较,作者为RFS和seesaw loss搜索最佳超参数,并发布带有具体配置的代码。**基于频率的匹配器。**作者使用mask2former和ResNet50主干网络在三个长尾数据集上研究了FM。为了使所有数据集具有统一形式,由不同频率类型的频率阈值确定。如果没有具体说明,等于每个数据集中常见类的最大频率,且。

Main Results

开箱即用的语义分割。 表2展示了使用ResNet-50 Backbone 网络的DeepLab-V3-Plus和mask2former在LTSS和不平衡数据集上的结果。可以明显观察到,与平衡数据集相比,LTSS数据集的性能出现了严重退化,部分原因是使用了较少的训练数据或更多的类别,但根本原因是这些稀有类别的性能严重不足。以普通的mask2former为例,对于三个LTSS数据集,稀有类别的图像级mIoU仅为频繁类别的19.1%(ADE20K-Full)、34.0%(COCO-Stuff-LT)和18.8%(MHP-v2-LT)。此外,这个比例也与图像级基尼系数 呈正相关,即 越大,频繁类别与稀有类别之间的准确率差距越大。类似的结果也可以在DeepLab-V3-Plus模型中观察到。

LTSS数据集上的经典解决方案。 如表2所示,三种经典的长尾解决方案在LTSS数据集上产生了一些效果,但并不显著。具体来说,除了COCO-Stuff-LT数据集外,RFS的改进并不明显;然而,它可以将稀有类别的图像级mIoU提高大约0.91.9个百分点。Copy-Paste 在三个LTSS数据集上使mIoU提高了约1个百分点。

对于长尾问题,它们的效果也不尽如人意,因为它们在采样过程中无意中影响了频率更高的类别,例如,与罕见类别一起出现的频繁类别。虽然Seesaw Loss增加了低频类别的权重,但它只影响分类损失。Seesaw Loss大约带来0.61.1个点的mIoU改进,图像 Level 的mIoU{}{t}提高了\sim个点。同样,对于,平均{}{r}提高了个点,平均{}{c}提高了个点。以上结果表明,经典的长尾解决方案对任务没有明显的影响。特别是,在罕见类别上的改进微不足道。数据集上的基于频率的匹配器。在表底部,作者展示了的结果。作者的方法在上以个点的显著优于,在上以个点的,在上以个点的。值得注意的是,与频繁类别相比,罕见和常见类别的提升更为显著。例如,在数据集上,图像的{}{t}提高了个点,{}{c}提高了个点,而{}{t}仅提高了个点。作者还展示了通过\Delta_{freq}的{}{r}、{}{c}和{}{f}的平均偏差。作者显著地将平均{}{r}提高了个点,平均{}{c}提高了个点,而平均{}{f}提高了0.63个点。

与经典解决方案相比,作者的方法不仅实现了更好的总体性能,而且在低频类别上的性能也有了显著提升,这可以从看出。作者在平均mIoU上至少比其他方法高出3.52个点,在上高出2.83个点,而平均mIoU略有下降。

与ADE20K-Full数据集上的SOTA比较。 由于之前已经对ADE20K-Full数据集进行了研究,作者将其语义分割性能与之前的研究进行了比较。结果总结在表3中。作者将FM算法与之前的分割方法以及作者引入的长尾基准进行了比较。为了说明这种方法潜在的一般性,作者进一步与使用Swin-L Backbone 网络的vanilla mask2former和mask2former + copy-paste进行了更强烈的比较,因为X-Paste在传统解决方案中在ADE20K-Full上取得了最佳性能。如表所示,mask2former与之前的分割方法相比取得了有希望的成果,并达到了18.8个mIoU点。作者的基于频率的匹配器使用ResNet-50 Backbone 网络达到了20.3%的mIoU,甚至超过了采用更强大 Backbone 网络(ViT-B)的segmenter [41]和RankSeg [73]。使用Swin-L和Mask DINO,作者的方法取得了最佳的27.8%mIoU结果,分别比vanilla Mask DINO和Mask DINO + X-Paste高出1.8%和0.5%。

Ablation Study

作者研究了使用mask2former和ResNet50 Backbone 网络的ADE20K-Full数据集的超参数。如前所述, 作为控制匹配多个 Query 的类别比例的频率阈值,而 控制额外 Query 的程度。较高的 增加了应用于一对多匹配的类别数量。较高的 增加了所有类别匹配的 Query 数量。结果如表4所示。

对于ADE20K-Full,0.0003和0.0006分别是稀少类别和常见类别的频率四分位数。例如, 意味着所有稀少类别都匹配更多的 Query 。作者发现 和 可以达到最佳性能,总体mIoU为20.3个百分点,这比vanilla mask2former高1.5个百分点。具体来说,在图像 Level 上实现了8.3点的mIoU,在像素 Level 上实现了7.6点的mIoU。FM在不同设置下显著有利于稀少类别,并在图像 Level 上增加了1.23.5点的mIoU{}{r},在像素上增加了\sim点的{}{r},因为稀少类别可以匹配比 Baseline 更多的 Query 。

当 时,只有稀少类别具有相对匹配强度。因此,mIoU 显著增加,而mIoU 略有增加。当 增加到0.0006时,常见类别也匹配更多 Query ,mIoU 进一步提高。随着 增加,整体mIoU提高,并在 增加时趋于饱和。无论 和 如何变化,对mIoUf的影响都很小,这也表明作者的FM增强了低频类别。

TABLE IV: 频率匹配器超参数 和 对ADE20K-Full的影响。“baseline”指的是vanilla mask2former。

TABLE III: 在ADE20K-Full上进行语义分割性能比较。最佳性能以粗体突出显示。作者提出的方法FM达到了27.8 mIoU的最佳结果。

Analysis and Discussion

在本小节中,作者对FM进行了总体分析和讨论。

定性结果。作者在图4中进一步可视化了 Copy-Paste 以及mask2former和Swin-L下FM的一些结果。Copy-Paste 倾向于将稀有类别误分类为频繁类别。得益于基于频率的监督增强,作者的方法能更准确地预测稀有类别。

与其他策略的合作。由于其他长尾学习策略并未关注匹配器,作者认为FM可以与它们协作以实现更佳的性能。如表5所示,作者的方法可以进一步提高其他长尾学习策略上的分割性能。其中,FM与X-Paste的组合在总体mIoU上取得了最高的成绩,相比于仅使用mask2former Baseline 提高了2.8个百分点,相比于仅使用X-Paste策略提高了1.6个百分点。此外,FM与seesaw损失结合在低频类别分割上取得了最佳性能,图像级mIoU和像素级mIoU分别比vanilla mask2former Baseline 高出5.2和4.6个百分点。

与其他基于Transformer的分割器的集成。 FM改进了 Query 与 GT Mask 之间的匹配策略,使得对低频类别实例的监督更充分,适合于绝大多数基于Transformer的分割器,例如Group DETR [44],Mask DINO [45],MP-Former [46]。表6展示了在ADE20K-Full上,三种基于Transformer的分割器在有无FM的情况下的性能表现。可以清楚地看到,FM提高了每个分割器的性能(+1.2 +1.8 mIoU)。特别是对于稀有类别,在图像级和像素级指标上,FM的效果更为显著,表明FM是一种通用的LTSS策略,可以无缝提高基于Transformer的分割器对于稀有目标或物质的性能。

V Conclusion and future work

在本工作中,作者关注一个具有挑战性的问题,即长尾语义分割(LTSS),其目标是学习密集像素预测,能够兼顾从长尾分布中的 Head 和尾部类别。

围绕这一新型任务设置,作者建立了一个完整的LTSS学习系统,包括三个具有多种数据场景的数据集、一个双指标评估系统,以及一个基于高级语义分割流程的坚实基准。

在深入分析了在LTSS任务中经典长尾学习解决方案的瓶颈之后,作者提出了一个基于Transformer的目标方法FM,它通过一对多匹配解决了过抑制问题,并自动为每个类别确定匹配 Query 的数量。在ADE20K-Full、COCO-Stuff-LT和MHP-v2-LT数据集上的实验结果证明了作者提出方法的优势。

作者提出的FM在基于Transformer的长尾语义分割框架中代表了显著的进步,但在关键领域仍需要进一步的发展。一个主要的局限性是,FM仅与基于Transformer的框架兼容,尽管它们在分割精度上领先。

此外,在其它LTSS方面,如数据增强等,也有丰富的研究空间,这可以带来实质性的性能提升。未来的工作将深入这些领域,寻求全面而有效的解决方案,以增强LTSS方法的鲁棒性和多样性。

参考

[1].Frequency-based Matcher for Long-tailed Semantic Segmentation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related Work
  • Semantic Segmentation
  • Transformer-based Segmentation
  • Long-tailed Learning
  • III Long-tailed Semantic Segmentation
  • Problem Formulation
  • Dataset Design
  • Evaluation System
  • Advanced Benchmark
  • IV Experiments
    • 实现细节
    • Main Results
    • Ablation Study
    • Analysis and Discussion
    • V Conclusion and future work
    • 参考
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档