近年来,语义分割已成为计算机视觉的重要工具。其中一种技术称为逐像素分类,其目标是使用深度学习技术(例如全卷积网络 (FCN))将图像划分为不同类别的区域。掩码分类是另一种将图像分割和分割的分类方面分开的替代方法。取而代之的是单个像素,基于掩码的方法预测二进制掩码,每个掩码都与分配给一个特定类别的掩码相关联。
掩码分类的一般概念可以应用于语义和实例级别,这是一个重要的观察结果。事实上在 FCN 之前,一些最有效的分割方法是像 O2P 和 SDS 这样的掩码方法,它们具有相同的观点。鉴于这些信息,自然会问一个问题:同时解决这些细分的单一方法能否证明更有益?这些方法是否会胜过当前用于语义分割的逐像素分类技术?
为了解决这些问题,来自 Facebook AI Research (FAIR) 和伊利诺伊大学厄巴纳-香槟分校 (UIUC) 的研究人员提出了一种简单的MaskFormer 方法/模型将任何现有的每像素分类模型无缝转换为掩码分类。DETR 中提出的集合预测机制使用 Transformer 解码器来计算由对组成的集合,每个对都包含类预测和掩码嵌入向量。这个过程是通过点积与从底层完全卷积网络获得的每像素嵌入完成的。这种新模型通过使用一个每像素二进制掩码损失的损失函数以统一的方式解决语义和实例级分割任务。每个掩码的单一分类损失使得根据将 MaskFormer 的输出混合到其他模型的预测格式,更容易创建具有任务相关预测的输出。
MaskFormer 的主要特点:
研究人员在五个不同类别的语义分割数据集上评估了 MaskFormer:Cityscapes(19 个类别)、Mapillary Vistas(65 个类别)、ADE20K(150 个类别)、COCOStuff-10K(171 个类别)、ADE20K-Full(847 个类别)。MaskFormer 优于 Cityscapes 的每像素分类模型,后者有几个不同的类别。在比较具有更大词汇量的数据集时,新模型表现出卓越的性能。
MaskFormer 简化了语义和全景分割任务的方法,显示了出色的结果。当类的数量很大时,它的性能优于每像素分类基线。掩码分类优于当前的 SOTA 语义 (ADE20K) 和全景分割 (COCO) 模型。
论文:
https://arxiv.org/pdf/2107.06278.pdf
项目:
https://bowenc0221.github.io/maskformer/
Github:
https://github.com/facebookresearch/MaskFormer