SSFENet | 增强空间和语义特征用于目标检测（附论文下载）

计算机视觉研究院

发布于 2022-03-04 12:14:35

6720

发布于 2022-03-04 12:14:35

文章被收录于专栏：计算机视觉战队

计算机视觉研究院专栏

作者：Edison_G

目前最先进的目标检测器通常使用预先训练好的分类网络来提取特征，然后利用特征金字塔来检测不同尺度的目标。

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

源码获取｜扫码回复“GWD”获取源码

1

简要

目前最先进的目标检测器通常使用预先训练好的分类网络来提取特征，然后利用特征金字塔来检测不同尺度的目标。然而，分类网络更喜欢平移不变性，而忽略了位置信息，因此直接使用提取的特征进行融合会影响性能。

在今天分享中，研究者提出了一个新的网络来解决这个困境，即空间和语义特征增强网络(SSFENet)。首先，引入了空间特征增强块来利用空洞卷积和加权特征融合来增强特征中的空间信息。其次，在低级阶段，框架中的语义特征增强块利用高级阶段的主干网络来获得具有更丰富语义信息的特征，并且由于使用了共享的卷积层，只引入了很少的计算成本。在MS-COCO基准测试上的实验结果表明，该SSFENet显著提高了常用目标探测器的MAP性能。

2

简单背景介绍

Two-stage：

对于Two-stage的目标检测网络，主要通过一个卷积神经网络来完成目标检测过程，其提取的是CNN卷积特征，在训练网络时，其主要训练两个部分，第一步是训练RPN网络，第二步是训练目标区域检测的网络。网络的准确度高、速度相对One-stage慢。

One-stage：

直接通过主干网络给出类别和位置信息，没有使用RPN网路。这样的算法速度更快，但是精度相对Two-stage目标检测网络了略低。

目前常用的典型的One-stage目标检测网络

YOLOv1、YOLOv2、YOLOv3
SSD、DSSD等
Retina-Net等

Feature enhancement：

Feature Enhancement Network: A Refined Scene Text Detector

地址: https://arxiv.org/abs/1711.04249

3

新框架

Spatial Feature Enhancement Block

大多数最先进的目标检测器都使用预先训练好的分类网络来提取特征。然而，分类网络在前几个卷积层之后进行多个下采样。此操作将丢失目标检测所必需的位置信息。直接的解决方案不执行下采样，但这将大大增加内存和计算成本，并且需要重新设计主干网络。

新出了一种有效的空间特征增强(SpaFE)块来扩展感受野，并了解不同感受野的重要性，如上图所示。首先，SpaFE块采用多分支形式来提取具有不同感受野的特征，每个分支都使用具有不同扩张率的空洞卷积。其次，SpaFE块使用元素级添加而不是连接，这将减少一些计算开销。此外，由不同感受野提取的特征的重要性是不相同的，即不同分支的输入对输出的贡献并不平等。为了解决这个问题，研究者为每个输入引入了一个额外的权重，并让网络了解每个分支的重要性。研究者使用快速标准化的融合：

Semantic Feature Enhancement Network

研究者将SemFE块与综合特征增强(CFE)模块进行了比较。CFE模块利用多分支和分组卷积来增强语义信息，需要从头开始进行训练。这将增加模型的复杂性和训练的难度。实验结果表明，SpaFE块的性能优于CFE。

SSFENet框架

4

实验

Ablation study of SSFENet. The baseline is FPN Faster RCNN with ResNet-50 and the detection results are evaluated on minival set.

Detection performance of different architectures on MS-COCO minival set. Faster RCNN and Mask RCNN both utilize FPN.

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！