Encoder-Decoder with Atrous SeparableConvolution for Semantic Image Segmentation

狼啸风云

修改于 2022-09-02 11:43:49

1K0

修改于 2022-09-02 11:43:49

摘要

深度神经网络采用空间金字塔池化模块或编解码器结构进行语义分割。前者通过多速率、多有效视场的过滤或池化操作，能够编码多尺度背景信息;后者通过逐步恢复空间信息，能够捕获更清晰的物体边界。在本研究中，我们建议结合这两种方法的优点。具体来说，我们提出的模型DeepLabv3+扩展了DeepLabv3，通过添加一个简单但有效的解码器模块来细化分割结果，特别是沿着对象边界。我们进一步探索了Xception模型，并将深度可分离卷积应用于Atrous空间金字塔池和解码器模块，从而获得更快、更强的编码器-解码器网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了该模型的有效性，在没有任何后处理的情况下，测试集的性能分别达到了89.0%和82.1%。

1、简介

语义分割是计算机视觉的基本课题之一，其目的是为图像中的每个像素分配语义标签。基于全卷积神经网络[8,11]的深度卷积神经网络在基准任务上比依赖手工特征的系统有显著的改进。在这项工作中,我们考虑两种类型的神经网络,使用空间金字塔池模块或encoder-decoder结构语义分割，前一个捕捉丰富的上下文信息,通过集中特性在不同的决议,而后者是能够获得锋利的物体边界。

为了在多个尺度上捕获上下文信息，DeepLabv3应用了多个不同速率的并行atrous卷积(称为atrous空间金字塔池化，或ASPP)，而PSPNet则在不同的网格尺度上执行池化操作。尽管在最后一个特征图中编码了丰富的语义信息，但由于网络主干中跨操作的池化或卷积，与目标边界相关的详细信息丢失了。通过应用atrous卷积来提取更密集的特征图，可以缓解这一问题。然而，考虑到目前最先进的神经网络设计和有限的GPU内存，提取比输入分辨率小8倍甚至4倍的输出特征图在计算上是不可能的。以ResNet-101为例，在应用atrous卷积提取比输入分辨率小16倍的输出特征时，最后3个残差块(9层)内的特征需要进行扩展。更糟糕的是，如果需要的输出特性比输入小8倍，26个剩余块(78层!)将受到影响。因此，如果对这种类型的模型提取更密集的输出特征，则需要大量的计算。另一方面，编码器-解码器模型[21,22]有助于在编码器路径中更快地计算(因为没有特征被扩展)，并在解码器路径中逐渐恢复尖锐的目标边界。我们尝试结合这两种方法的优点，提出通过加入多尺度上下文信息来丰富编码器模块在编码器-解码器网络。

特别是，我们提出的模型，称为DeepLabv3+，通过添加一个简单而有效的解码器模块来恢复对象边界来扩展DeepLabv3，如图1所示。丰富的语义信息被编码在DeepLabv3的输出中，通过atrous卷积可以根据计算资源的预算控制编码器特性的密度。此外，解码器模块允许详细的对象边界恢复。

受最近深度可分离卷积(deep分离式卷积)成功的启发，我们也探索了这一操作，并通过将Xception模型[26](类似[31])用于语义分割任务，显示了在速度和准确性方面的改进。并将atrous可分离卷积应用于ASPP和解码器模块。最后，我们在PASCAL VOC 2012和Cityscapes数据上验证了所提模型的有效性，在没有任何后处理的情况下，测试集的性能达到了89.0%和82.1%，开创了一个新的发展阶段。总之，我们的贡献是:

我们提出了一个新的编码器-解码器结构，采用DeepLabv3作为一个强大的编码器模块和一个简单而有效的解码器模块。

在我们的结构中，可以通过atrous卷积任意控制提取的编码器特征的分辨率来权衡精度和运行时，这是不可能与现有的编码器-解码器模型。

我们将Xception模型用于分割任务，并将深度可分离卷积应用于ASPP模块和解码器模块，从而产生更快更强的编码器-解码器网络。

我们提出的模型在PASCAL VOC 2012和城市景观数据集上获得了最新的性能。我们还提供了设计选择和模型变体的详细分析。

2、相关工作

基于全卷积网络(FCNs)的模型[8,11]已经证明在几个分割基准上有显著的改进。有几种模型被提议利用上下文信息进行分割，包括那些使用多尺度输入的模型(例如:图像金字塔)或采用概率图形模型(如具有高效推理算法的DenseCRF)。在本工作中，我们主要讨论了使用空间金字塔池和编码器-解码器结构的模型。

Spatial pyramid pooling:

模型，如PSPNet或DeepLab，在多个网格尺度(包括图像级池[52])执行空间金字塔池，或应用多个不同速率的并行atrous卷积(称为atrous空间金字塔池，或ASPP)。这些模型利用多尺度信息，在多个分割基准上取得了良好的效果。

Encoder-decoder:

编解码器网络已成功应用于许多计算机视觉任务，包括人体姿态估计，目标检测，以及语义分割。通常，编码器-解码器网络包括(1)一个编码器模块，逐步减少特征映射并捕获更高的语义信息，(2)一个解码器模块，逐步恢复空间信息。在此基础上，我们提出使用DeepLabv3作为编码器模块，并添加一个简单而有效的解码器模块，以获得更清晰的分割。

Depthwise separable convolution:

深度可分离卷积或组卷积，是一种强大的操作，可以在保持相似(或稍好)性能的同时，减少计算成本和参数数量。这种操作已被许多最近的神经网络设计所采用。特别地，我们探索了Xception模型，类似于COCO 2017检测挑战，并且在语义分割任务的准确性和速度方面都有提高。

3、方法

在本节中，我们简要介绍了反向卷积和深度可分离卷积。然后我们回顾DeepLabv3，它被用作我们的编码器模块，然后讨论附加到编码器输出的解码器模块。我们还提出了一个改进的Xception模型，它通过更快的计算进一步提高了性能。

3.1 Encoder-Decoder with Atrous Convolution

Atrous convolution：Atrous卷积是一种强大的工具，它允许我们明确地控制由深度卷积神经网络计算的特征的分辨率，并调整滤波器的视场以捕获多尺度信息，它推广了标准卷积运算。对于二维信号，对于输出特征映射y上的每个位置i和一个卷积滤波器w，对输入特征映射x进行atrous卷积，如下所示：

其中速率r决定了我们采样输入信号的步幅。通过改变速率值，自适应地修正了滤波器的感受野。 Depthwise separable convolution：深度可分卷积是将一个标准卷积分解为深度卷积，然后再进行逐点卷积(即1 × 1卷积)，极大地降低了计算复杂度。具体来说，深度卷积对每个输入通道独立执行一个空间卷积，而点向卷积用于合并深度卷积的输出。在本工作中，我们将得到的卷积称为可分离卷积，发现可分离卷积在保持相似(或更好)性能的同时显著降低了所提模型的计算复杂度。

DeepLabv3 as Encoder：DeepLabv3采用atrous卷积来提取由深度卷积神经网络计算的任意分辨率的特征。这里，我们将输出步长表示为输入图像空间分辨率与最终输出分辨率的比值(在全局池化或全连接层之前)。对于图像分类任务，最终特征图的空间分辨率通常比输入图像分辨率小32倍，因此output stride= 32。语义分割的任务,一个可以采用output stride = 16(或8)密度特征提取的大步在最后一个(或两个)应用卷积深黑色的块(s)和相应的(例如，我们运用rate= 2和rate= 4最后两块分别输output stride= 8)。此外, DeepLabv3增强了Atrous空间金字塔池化模块，该模块通过应用不同速率的Atrous卷积，在多个尺度上探测卷积特征，图像级特征。在我们提出的编码器-解码器结构中，我们使用原始DeepLabv3中logit之前的最后一个特性映射作为编码器输出。注意，编码器输出特性映射包含256个通道和丰富的语义信息。另外，根据计算量的不同，可以应用atrous卷积来提取任意分辨率下的特征。

Proposed Eecoder：DeepLabv3的编码器特性通常使用输出stride = 16进行计算。我们提出了一个简单而有效的解码器模块，如图2所示。编码器特征首先以4倍的双线性向上采样，然后与来自具有相同空间分辨率的网络主干的相应低级别特征连接[73](例如，在ResNet-101[25]中跨步之前的Conv2)。我们应用另一个1×1卷积的低级功能来减少渠道的数量,因为相应的低电平的功能通常包含大量的渠道(例如,256或512)可能超过丰富的编码器特性的重要性在我们的模型中(只有256个频道)和训练的难度。在连接之后，我们应用一些3 × 3卷积来细化特征，然后再用另一个简单的双线性上采样4倍。在第4节中，我们展示了在编码器模块中使用输出stride = 16在速度和精度之间达到了最佳平衡。当编码器模块使用输出stride = 8时，性能略有改善，但代价是额外的计算复杂度。

3.2 Modified Aligned Xception

Xception模型在ImageNet上显示了良好的图像分类结果，计算速度快。最近，MSRA团队修改了Xception模型(称为Aligned Xception)，并进一步提高了目标检测任务的性能。基于这些发现，我们朝着同样的方向，将Xception模型应用于语义图像分割任务。特别是，我们作一些修改在同行的修改,即(1)深入Xception除了一样，我们不修改条目流网络结构的快速计算和内存效率，(2)所Max-Pooling操作都被切除与大步分离卷积, 使我们应用深黑色的分离卷积来提取任意分辨率特征图(另一个选择是深黑色的算法扩展到最大池操作),和(3)额外添加批量标准化和ReLU激活后每3×3切除卷积,类似于MobileNet设计。具体见图4。

各位看官老爷，如果觉得对您有用麻烦赏个子，创作不易，0.1元就行了。下面是微信乞讨码：