改进特征融合的实时语义分割方法

一点人工一点智能

发布于 2024-04-16 19:23:41

2040

发布于 2024-04-16 19:23:41

文章被收录于专栏：一点人工一点智能

作者：王小玉，李志斌

来源：《哈尔滨理工大学学报》

编辑：东岸因为@一点人工一点智能

针对实时语义分割任务中需要同时兼顾位置信息和语义信息的问题，提出一种改进特征融合的实时语义分割方法。该方法由卷积神经网络、轻量级注意力模块(LAM) 和双通道特征融合模块 (BFFM)组成。

首先，使用卷积神经网络结合轻量级注意力模块快速提取图像的位置信息和语义信息。然后，使用双通道特征融合模块指导位置信息和语义信息的特征图融合。所提方法在CamVid上，平均交并比达到67.8%，分割速度可达到52.6帧/s。在Cityscapes上 ,平均交并比达到73.5%，分割速度可达到31.8帧/s。

实验结果表明，提出的分割方法满足分割的准确性和实时性要求，能够适用于实时语义分割任务中。

00 引言

语义分割是计算机视觉领域的一个基础问题其任务是对图像中的每一个像素点进行分类！在虚拟现实、工业自动化、无人驾驶和医学检测等领域具有广泛的应用[2-41]，在这些应用中如何能保持较高的分割的精度和分割实时性是其应用的关键，随着卷积神经网络的产生及迅速发展，其在像语义分割问题取得了显著的成果。

图像语义分割任务中的特征提取通常是采用图像分类中预训练的模型[5-7]。首先被提出的语义分割网络是全卷积神经网络[8]，基于卷积神经网络VGG(visual geometrygroup)，可以接受任意大小的图像作为输入，通过对输入图像进行卷积、池化和批归一化等操作获得其特征，这些特征可以判断出图像中包含什么类别的物体，但是因为缺少浅层的位置信息丢失了部分细节，不能很好地给出物体的具体轮，因此全卷积神经网络的分割精度较低。

此后又有基于金字塔结构的网络模型[9-10]被提出，但上述网络模型由于没有直接利用浅层的位置信息导致模型复杂。基于编码-解码结构的网络模型[11-12]中，分别将浅层位置特征信息和深层语义特征信息通过通道拼接和元素相加的方式进行特征融合，提高了分割精度。但由于上述的语义分割方法推理速度慢、模型参数多应用效果不理想。

上述算法主要是针对语义分割，实时语义分割算法不仅要求分割精度还需要保证分割的实时性Paszke等[13]通过对模型的剪枝进行加速，该方法优点是提升了推理速度并降低了计算复杂度，但其缺点是模型下采样的深度不够，减少了图像的细节特征，同时感受野较小，很容易丢失物体的边界和小物体周围的细节。Yu等[4提出采用双分支结构来平衡生成的空间信息和语义信息，但由于两个分支输入的图像分辨率高，其额外的分支限制了分割速度此后又有采用多分支结构的网络模型[15-16]被提出其中一个分支是用于特征提取，而其他分支则被用于填充下采样过程中丢失的像素，与双分支结构不同的是其每一个分支的输入的分辨率都不相同，经过对分辨率特征提取后再进行特征融合，对分割速度有所提高。Li等[17]提出采用深度特征融合的方法，对特征图进行多次不同层级的特征提取，通过编码将不同层级提取的特征融合。

注意力机制对分割效果具有较大的提升，其首先被Vaswani等[18]提出。注意力机制可以获取较长距离的语义信息，增加对于特征图的理解，这是由于注意力机制建立了全局范围内像素的依赖关系获得了更具表达能力的特征信息。Hu等提出一个基于注意力的网络，其中SE(squeeze and excita-tion)模块是核心，该模块通过压缩和激励两种操作，提升了模型对每个通道的注意力，并且该模块是轻量级的可以直接添加在其他的网络模型中。在CBAM(convolutional block attention module )[20]中和DANet(dual attention network)[21]中，作者分别将通道注意力模块和空间注意力模块进行串联和并联通过两种注意力机制使得该网络更专注于目标物体，从而提高分割的准确率。但是由于注意力机制需要通过矩阵的点乘来确定其权重信息，会产生大量的计算，不适合实时分割语义网络。因此，本文借鉴SE和CBAM块提出了一个轻量级的基于空间和通道的注意力机制。

特征融合用于将不同的语义信息相结合，由于卷积神经网络采用卷积等方式进行特征提取，在卷积过程中会导致图像变小，恢复图像大小时要考虑像素的定位问题，因此基于卷积神经网络的语义分割中需要对每个像素完成定位和分类两种任务。

定位任务需要依据空间的位置信息，它需要在高分辨率下才能完成；与定位相反，分类任务要联系上下文语义信息，通过减小分辨率来扩大感受野，以此来得到更全面的语义信息，所以需要通过特征图的融合，来兼顾这两种任务。通过特征图直接连接或将特征图对应元素相加可以实现特征融合，但Ghiasi 等[22]表明浅层特征图由于其较小的感受野会存在噪声直接连接会使通道的数量显著增加，而对应元素相加并不能很好地利用起空间信息和上下文信息的相关性。基于门控方式的特征融合[23-24]，可以有效的提高分割的精度，但在分割速度上还需要提升。基于以上研究，本文提出了一种双通道特征融合方式。

针对语义分割网络中浅层位置信息和深层语义信息融合的问题，本文提出改进特征融合的实时语义分割方法，该方法以轻量级的特征提取网络ResNet18(residual networks 18-layer)[5]为基础，对其不同阶段得到的特征图进行提取，并设计了轻量级的注意力模块增大感受野，提高分割精度。同时设计了双通道特征融合模块，将位置信息和语义信息相互弥补，从而使获取的图像特征信息更全面。

01 算法的实现

本文的实时语义分割方法网络模型如图1所示，由语义信息模块，位置信息模块，轻量级注意力模块( light attention module，LAM)以及双通道特征融合模块( bilateral feature fusion module，BFFM)组成。骨干网络采用ResNet18保证分割算法的实时性，轻量级注意力模块在满足实时性的条件下对全局上下文信息进行编码，而双通道特征融合模块将提取到的位置信息和语义信息相融合。基于以上主要模块，构建了一个分割网络模型。

1.1 双通道特征融合

模块语义信息和位置信息的特征图是互补的，因此特征融合模块用于合并这两种不同类型的特征图，同时使用多个特征图能得到更准确的结果，但随着数据量的增加或图像间相关性的增加，模型会变得冗余和复杂。特征图之间的通道简单拼接或对应元素相加会导致网络性能下降。如何高效的将语义信息和位置信息相融合是研究的一个重点问题，本文基于分割准确率和效率两方面的考虑，提出了双通道特征融合模块。

双通道特征融合模块(BFFM)的结构如图2所示。浅层的空间信息的特征图F_{low}和深层的语义信息的特征图F_{high}在尺寸和维度上都是不同的，因此需要对两者的特征图进行不同的操作，对F_{low}进行升维和步长为2的卷积操作，对F_{high}进行降维和2倍上采样操作，使两者在尺寸和维度上相匹配。之后按对应元素相加，其公式表示如下：

对两者相结合的特征图F_{add}做相应的操作使其成为权重特征图对输入的两组特征图进行指导，具体操作有，对F_{add}进行卷积和池化操作得到F_{mid}，将F_{mid}改变尺寸和维度后使用 Sigmoid 函数分别得到浅层的空间信息的特征权重图w(F_{low})和深层的语义信息的特征权重图w(F_{high})，其公式表示如下:

将得到的权重特征图与对应的输入相乘，得到的每个特征图都具有不同的多尺度编码信息，最后将得到的特征图按元素相加。公式表示如下：

与简单的特征图通道连接相比，这种语义信息和空间信息相互指导的方式使两者能够有效地融合。

1.2 轻量级注意力模块

图像的语义信息是对图像进行语义分割的基础，足够大的语义信息意味着需要更大的感受野，以此来获取足够的语义信息。注意力模块可以获取较长距离的语义信息，增加对于特征图的理解，并能解决上采样过程中不能有效恢复图像特征信息的问题。

现有的注意力模块如自注意力模块、非局部注意力模块等基于全局的注意力模块分割效果较好但需要耗费大量资源，不能满足语义分割的实时性要求。因此如何设计一个能满足实时性要求的注意力模块是研究的一个重点。为此，本文提出了一个轻量级注意力模块，减少注意力机制中的计算量和参数量，满足语义分割的实时性。

轻量级注意力模块(LAM)如图3所示，该模块受SE模块中的通道注意力和B块串联的启发。先对输入的特征图进行全局平均池化得到输入特征图的向量v(F_{in})，获取最大感受野的同时也可以减少后续操作的计算量，其公式表示如下：

之后用卷积和归一化来加快网络收敛速度，用Sigmoid函数将权重进行归一化得到输入特征图的权重w(F_{in})，其公式表示如下：

其中：C表示卷积和批归一化操作；R表示使用Re-LU激活函数；S表示使用Sigmoid 函数。之后将归一化后得到的权重与输入的特征图相乘得到通道注意力F_c，其公式表示如下：

以得到的通道注意力F_c为输入，对特征图进行空间注意力提取，先对输入通过1x1卷积进行降维操作，得到通道数为1的权重特征图，特征图上每一个像素表示该通道的特征值，之后通过归一化和相乘操作得到最终注意力模块的输出F_{out}。其公式表示如下:

其中：C_d表示1x1降维卷积；S表示Sigmoid函数。

1.3 网络结构

基于轻量级注意力模块和双通道特征融合模块提出了一种改进特征融合的实时语义分割方法，其结构如图1所示。

网络结构的轻量级的残差网络ResNet18和轻量级注意力模块共同保证了分割的实时性，双通道特征融合模块通过高效融合位置信息和语义信息保证了分割的准确性。

ResNet18通过5个阶段的卷积网络提取出具有不同语义信息的特征图，浅层输出的特征图尺寸较大，具有较强的位置信息，随着卷积网络层数的增加得到的特征图具有丰富的语义信息。

网络中位置信息采用第三阶段即conv3_x阶段的特征图与轻量级注意力模块相连接，得到的包含上下文的位置信息特征图F_1，其尺寸为原图的1/8。语义信息采用骨干网络中的第五阶段即conv5_x阶段的特征图连接轻量级注意力模块，得到包含全局信息的语义信息特征图F_2，其尺寸为原图的1/32。之后将得到的位置信息F_1和语义信息F_2，输入到双通道特征融合模块中，得到融合后的特征图F，其尺寸是原图的1/8，之后特征图F经过双线性插值的方法进行上采样恢复至输入的尺寸，得到预测结果。

损失函数可以得到模型预测和真实值的差距，从而指导模型下一步训练方向。为了得到较好的网络训练效果，本文使用一个主损失函数loss_1，对整个网络结果进行监督，同时使用两个辅助函数loss_2和loss_3分别对两个重要模块即语义信息和位置信息的结果进行监督。

损失函数位置如图1所示。损失函数的操作流程是先对特征图进行卷积操作，使其通道数与类别数目相同，再通过上采样的方法使卷积后的特征图恢复至输入的尺寸，最后进行损失函数的计算。主损失函数和辅助损失函数都使用交叉熵损失函数，损失函数之间直接相加，即：

交叉熵损失函数的计算方式如下：

其中：M表示类别数；y_{oc}表示类别c与样本o相同值为1，不同则为0；p_{oc}表示样本o属于类别c的预测概率。

02 实验与分析

2.1 实验数据集与评价指标

本文数据集使用两个公共数据集Cityscapes和CamVid，其中Cityscapes是一个从汽车驾驶角度对城市街景进行语义分割理解的数据集。其包含5000张分辨率为2048x1024的图像。数据集中有2975张图像用于训练，500张用于验证，剩余的1525张图像用于测试。在本文的实验中仅使用精细标注的图像来验证本文提出的方法的有效性，注释中共包括30个类，本文的实验使用其中19个类进行语义分割任务。

CamVid数据集与Cityscapes拍摄场景相似，其图像分辨率为480x360。数据集中用于训练、验证和测试的图像分别有367张、101张和233张。本文使用数据集中提供的32个候选类别中的11个类进行实验，不属于这11类的像素将会被忽略。

本文的对网络性能的评价包括精度和速度两方面，其评价指标分别为平均交并比(meanIntersec-tion over Union，mloU)和帧率( frames per second，FPS)，其中帧率表示每秒能分割的图像的数量，反映了图像语义分割的实时性。

2.2 实验细节

本节将介绍基于双通道特征融合网络的实验细节。实验基于PaddlePaddle架实现，使用NVIDIA Tesla V100显卡进行运算加速，本文使用轻量级网络模型ResNet18作为骨干网络，将轻量级注意力模块和双通道融合模块加入到骨干网络中组成双通道特征融合网络。

采用随机梯度下降的方法对网络进行训练，其动量为0.9。对于所有的数据集：权重衰减率为0.0005。采用ploy学习率调整策略在网络优化过程中调整学习策略，其公式为初始学习率x(1-iter/iter_max)四w“其中初始学习率为0.05，power的值为0.9。对数据集Cityscapes 和CamVid其训练迭代次数分别为160000和20000，训练的批处理量分别为4和8。

本文的数据增强，采用随机的水平反转，对于图像大小进行随机调整，调整比例包含[0.75,1.0,1.25,1.5,1.75,2.0]。此外，对于Cityscapes数据集输入图像的尺寸为1024x512进行训练，对于CamVid数据集输入图像尺寸为224x224 来进行训练。

2.3 消融实验

本文提出多个模块和方法，为了验证不同模块对方法的影响，设计以下一系列的消融实验。

1）特征融合模块对方法的影响

为了验证特征融合模块的效果，设计如下3组不同的特征融合方式实验，第1组采用双通道特征融合模块；第2组将两阶段特征图按通道进行拼接；第3组不使用特征融合，对特征图直接上采样得到预测结果。

对比实验结果见表1，对比实验结果表明双通道特征融合模块极大地提升了平均交并比，对比实验的可视化效果图如图4所示，图中可以明显看出相较于其他特征融合方式，双通道特征融合使物体轮廓更明显，分割效果更好。

2）注意力模块对方法的影响

为了探究注意力模块对该网络的影响，本文设置了两组对比实验，第1组的实验的语义信息采用ResNet18网络连接注意力块，将其作为融合块的输入；第2组实验的语义信息直接采用ResNet18网络的输出。对比实验结果见表2，通过对比结果可以得出注意力模块使平均交并比有显著的提升。

3）损失函数权重对方法的影响

为了验证不同权重的损失函数对网络的影响设计如下对比实验，实验结果见表3，实验结果表明同时使用3个损失函数且权重相同时分割效果最好因此本文使用3个权重相同的损失函数。

2.4 与其他网络模型对比

实时语义分割网络需要同时考虑分割精度和分割实时性，因此本节将从这两方面对不同的语义分割网络模型进行比较。实时性与输入尺寸的大小和GPU(graphics processing unit)的性能有较大关系，输入尺寸越小，CPU算力越强实时性则越好。

在CamVid数据集上各模型比较结果如表4所示，与编号1~7组相比在分割精度上具有明显的优势，在实时性上虽然相比ENet、DFANet等有一定差距，但是相比精度的提升这些牺牲是值得的。编号8~10基于相同的实验条件，在分割精度上，本文采用了双通道特征融合模块将位置信息和语义信息进行高效融合，因此相较于表现较好的BiSeNet和STDC1-Seg分别提高了2.7和0.3个百分点。在实时性上，得益于轻量化主干网络和轻量级注意力模块，模型的分割速度相较于BiSeNet和STDC1-Seg分别提高了10.4和2.3fps，满足实时性要求。

综上分析可得在CamVid数据集上本文所提方法具有较好的实时语义分割性能。

在Cityscapes数据集上各模型的比较结果如表5所示，相较于1~7组，本文的方法在分割精度上具有较大提升。对比8~11组实验，在相同实验条件下，相较于BiSeNet2和STDC1-Seg50在精度上分别提升了2.1和1.5个百分点，在速度上分别提升了4.7和1.1fps，满足实时性要求。和表现较好的EACNet相比，由于EACNet中使用了非对称券积厌此在实时性上比本文的模型略高，但在分割精度上本文分割模型相较其提升了1.1个百分点。

综上在Cityscapes数据集上本文分割方法同样具有较好的实时语义分割性能。