375FPS! 谷歌提出MaskConver“重校正用于全景分割的纯卷积模型

AIWalker

发布于 2023-12-15 13:31:26

3250

发布于 2023-12-15 13:31:26

文章被收录于专栏：AIWalkerAIWalker

底层视觉干货，即可获取

https://arxiv.org/2312.06052

近年来，基于Transformer的模型由于其强大的建模能力以及对语义类和实例类的统一表示为全局二值掩码，在全景分割中占据主导地位。在本文中，我们回顾了纯粹的卷积模型，并提出了一种新的结构MaskConver，它通过预测物体和物体的中心来完全统一物体和物体的表示。在这种程度上，它创建了一个轻量级类嵌入模块，当多个中心共存于同一位置时，可以打破这种联系。

此外，我们的研究表明，解码器的设计对于确保模型具有足够的上下文以进行准确的检测和分割至关重要。我们介绍了一个功能强大的ConvNeXt-UNET解码器，它缩小了卷积和基于Transfoormer模型之间的性能差距。

使用ResNet50主干，我们的MaskConver在COCO-Val集上实现了53.6%的PQ，比基于卷积的现代模型全光FCN以及基于变压器的模型(如Mask2Former(+1.7%PQ)和KMAX-DeepLab(+0.6%PQ))高出9.3%。
采用MobileNet主干的MaskConver达到了37.2%的PQ，在相同的FLOPS/延迟限制下，比Panopov-DeepLab提高了+6.4%。
进一步优化的MaskConver版本在移动设备上实时运行时，PQ达到29.7%。

本文方案

骨干网是典型的卷积神经网络，如ResNet和MobileNet。提出了一种新的像素解码器ConvNeXt-UNET来生成图像特征，并在其上附加预测头。我们提出了三个预测头：

(1)中心热图头，预测物体和物体的中心点热图；
(2)中心嵌入头，预测中心点的嵌入；
(3)掩模特征头，产生掩模特征。掩码嵌入生成器通过将top-K置信度预测中心(它们的语义类和坐标)和中心嵌入作为输入来生成掩码嵌入。

最后，通过将掩码特征与掩码嵌入相乘来获得一组二进制掩码。我们将首先解释我们的设计动机，然后在以下小节中详细说明提出的模块。

Pixel Decoder: ConvNeXt-UNet

为了弥补基于变压器的方法之间的差距，我们首先设计了一种新的像素解码器ConvNeXt-UNET，如图3所示，由现代的ConvNeXt块[53]组成，以类似于UNET[59]的方式部署来生成图像特征。值得注意的是，ConvNeXt-UNET在主干的最高级别L5(步幅32)放置了更多的ConvNeXt块。由于大型内核设计，在L5级堆叠更多的ConvNeXt块可以有效地捕获远程上下文信息和高级语义。

具体地，解码器体系结构由两个超参数定义：重复次数N=[N5，N4，N3]和信道大小D=[D5，D4，D3]，从而确定从高级L5(步长32)到低级L3(步长8)的UNT结构。例如，设置N5=18和D5=384意味着在级别L5部署具有384个通道的18个ConvNeXt块。此外，我们经验上发现在ConvNeXt块(称为ConvNeXt-SE)中增加另一个压缩和激发[30]层是有效的，如图4所示，这以额外的边缘参数和可以忽略的Flop为代价提高了模型的容量。

Prediction Heads

在所提出的像素解码器生成的图像特征的基础上，我们构建了中心热图、类嵌入和掩码特征的三个预测头。

Light Structure of Head.不同于现有方法通常在预测头部采用3×3卷积，并对低层特征(即步长8甚至步长4)引入繁重的计算，MaskConver遵循ConvNeXt[53]的设计原则，采用大核尺寸为7×7的深度卷积。
Center Heatmap Head.扩展了目标检测方法，提出了对物体和物体使用中心点表示的方法。实验发现，遮罩中心比包围盒中心具有更好的表示能力。中心热图头部产生形状为H i×W i×C类的特征图，其中H i和W i是特征金字塔中第i级特征图的高度和宽度，C类是语义类的数目。我们将把top-K个最有信心的预测中心点(它们的预测语义类和坐标)提供给MASK Embedding生成器。
Center Embedding Head。中心嵌入头生成形状为H i×W i×C embd的中心点嵌入，其中C embd是嵌入的通道大小。其输出被馈送到掩码嵌入生成器，以收集前K个最有信心的预测中心点的K个中心嵌入(基于它们的坐标)。
Mask Feature Head. 扩展了目标检测方法[67，90]，提出了对物体和物体使用中心点表示的方法。实验发现，遮罩中心比包围盒中心具有更好的表示能力。中心热图头部产生形状为H i×W i×C类的特征图，其中H i和W i是特征金字塔中第i级特征图的高度和宽度[47]，C类是语义类的数目。我们将把top-K个最有信心的预测中心点(它们的预测语义类和坐标)提供给MASK Em-bedding生成器。
Mask Feature Head.掩码特征头组合了从L5到L3的解码器特征以创建掩码特征。这是通过将所有解码器特征的大小调整到相同的大小(步长4)并将它们相加，然后馈送到光预测头来完成的。得到的遮罩特征具有形状H/4×W/4×C embd，其中H和W分别是输入图像的高度和宽度。遮罩特征，与遮罩嵌入相乘(来自遮罩嵌入生成器，详细信息请参见第节)。3.3)，生成最终输出：一组K个二进制掩码。

Mask Embedding Generator

我们还建议使用类嵌入：它学习将每个语义类嵌入到一个大小为Cembd的向量中。类嵌入用于调整(通过加法和MLP)中心嵌入，缓解不同语义类的实例引起的中心冲突。

具体来说，我们设计了一个“类嵌入查找表”模块，用于存储学习到的语义类的嵌入。对于前K个中心，我们推断它们最可能的语义类，并从模块中获得它们对应的类嵌入。然后，我们将得到的类嵌入和中心嵌入相加，并将它们传递给MLP模块(两个完全连通的层)以生成最终的掩码嵌入。我们注意到，利用类嵌入对于预测掩码嵌入的质量至关重要。它确保每个实例都有唯一的嵌入向量，避免了实例中心碰撞的问题。

本文实验

在表1，我们将所提出的MaskConv算法与其他方法在三个方面进行了比较：基于卷积的、基于变换的和高效的模型。

基于卷积的模型。在基于卷积的模型类别中，MaskConv在性能(PQ)和速度(FPS)方面始终优于所有其他基于卷积的方法。特别是，与最先进的全景FCN[45]相比，MaskConv的PQ要好+9.3%，运行速度快2.13倍。
基于Transformer的模型。与基于变压器的模型相比，当使用类似的触发器/参数时，MaskConv获得更好的PQ。特别是，MaskConv比Mask2Former[11]高出1.7%，同时在V100 GPU上也更快。MaskConv也比KMAX-DeepLab[83]好+0.6%，FLOP数量略高。这些结果表明，通过设计更好的像素解码器、预测头和掩码嵌入生成器，MaskConv可以成功地弥合基于变换和卷积的模型之间的差距。
高效的模型。对于高效的模型，我们比较了MaskConv和Panoptic-DeepLab。我们使用具有相同MobileNet-MH主干和输入大小640×640的Panoptic-DeepLab来进行公平比较。我们的模型具有640个输入图像，与Panoptic-DeepLab相比，PQ提高了+6.4%，同时在V100 GPU上的速度也快了1.42倍。此外，如果我们将输入大小更改为256×256，我们的MaskConv-256的PQ与PanOpoic-DeepLab相似(29.7%对30.8%)，而运行速度快5.07倍。我们的MaskConv-256在Pixel 6 GPU上实时运行，速度为33 FPS。

小结

在这项工作中，我们提出了MaskConv，回顾了用于全景分割的纯卷积。MaskConv通过统一thing和stuff建模，简化了基于卷积的全景模型。具体地说，MaskConv使用中心来表示物体和填充区域，并使用灯光类嵌入模块来预测存在于相同位置的多个实例的唯一嵌入向量。MaskConv还采用了ConvNeXt-UNET像素解码器，为预测头提供了远程上下文和高级语义。凭借简化的架构和ConvNeXt-UNET，MaskConver缩小了与基于CoCo数据集的基于变压器的模型之间的差距。最后，MaskConver在移动领域表现出色，这要归功于卷积的简单和高效。整理不易，请点赞和在看

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-14，如有侵权请联系 cloudcommunity@tencent.com 删除

部署