ACM MM 2021 北航&鹏城实验室提出 SOD 新方法：互补三边解码器网络（CTDNet），兼顾高性能和高效率

CV君

发布于 2021-11-18 15:09:46

4910

发布于 2021-11-18 15:09:46

本文分享 ACM MM 2021 论文『Complementary Trilateral Decoder for Fast and Accurate Salient Object Detection』，由北航&鹏城实验室联合提出互补三边解码器网络 CTDNet 用于显著物体检测，在参数更少、速度更快的情况下仍然取得了非常好的分割结果，实现了性能和效率的良好平衡！

以下是论文和作者的详细信息：

论文链接：https://dl.acm.org/doi/pdf/10.1145/3474085.3475494
项目链接：https://github.com/iCVTEAM/CTDNet
课题主页：https://cvteam.buaa.edu.cn

01 引言

显著物体检测（SOD）旨在分割图像中引起人们注意的物体或区域。作为一种高效的预处理技术，它在许多下游的计算机视觉任务中起着重要的作用。

然而，大多数现有的SOD方法更加注重性能忽略效率，导致在性能和效率之间不能取得很好的平衡，如下图所示。一些模型倾向于增加网络的深度和宽度以获得最先进的性能，导致巨大的计算量和慢的推理速度，这使得它们在资源有限的情况下很难应用。虽然一些研究者开始考虑高效的显著性检测并试图在速度和精度之间折衷，但这些模型无法获得相当的性能。因此，建立一个具有竞争力性能的轻量级、快速的SOD模型具有重要的现实意义和挑战性。

在基于FCN的SOD方法中，U形结构最受关注并取得了良好的性能。U形结构通过利用自顶向下的路径和横向连接逐渐恢复解码器中的高分辨率特征映射，但是它也存在一些缺点并且仍有很大的改进空间，如下图(a)所示：

一个完整的U形结构会由于低层特征的分辨率大而增加计算复杂度并降低速度；
高层特征的语义信息可能在自顶向下的路径中被逐渐稀释，全局上下文信息也被忽略，这可能会产生不完整的分割结果；
在频繁下采样的过程中，丢失的空间信息仅通过合并层次化特征不能简单地被恢复；
U形结构缺乏边界信息，导致边界质量较差。

基于上述观察，作者摒弃了传统的U形结构，提出在解码器部分分别处理语义上下文、空间细节和边界信息，以达到准确率和速度之间的良好折衷，如下图(b)所示。

02 方法

作者提出了一种新的框架——高效的互补三边解码器网络（CTDNet）用于显著性检测，本文的模型结构如下图所示。

它包括三个分支：语义路径、空间路径和边界路径。顾名思义，这三个分支分别用来解决语义信息的稀释、空间信息的丢失和边界信息的缺失。这三个部分来自编码器的不同阶段并且共享同一个编码器，彼此互补，所以作者按照“粗糙-精细-更精细”的策略逐步合并这三个分支，可视化结果如下图所示。

具体地说，通过引入语义路径来获取丰富的语义上下文和全局上下文，从而形成一个具有精确显著物体定位的初始粗糙的显著性映射，如图(c)所示。空间路径的设计是为了保留更多的空间细节，将语义路径和空间路径结合起来构造一个全面而强大的特征表征，从而生成一个具有精确显著物体结构的相对精细的显著性映射，如图(d)所示。

边界路径利用低层的局部信息和高层的位置信息，提取具有额外边缘监督的显著边界特征，然后利用边界路径提供的显著边界特征进一步细化前两个分支的融合特征，从而生成一个具有清晰显著物体边界的最终更精细的显著性映射，如图(e)所示。

考虑到这三个分支的特性和互补性，作者提出了三个不同的融合模块来有效地融合它们。首先提出了一种简单的特征融合模块（FFM）来有效地融合语义路径和边界路径的多层次特征，然后设计了一种新颖的交叉聚合模块（CAM），将语义路径和空间路径进行融合，最后提出了一个边界细化模块（BRM）来进一步细化边界，如下图所示。

03 实验

为了便于在不同环境中的实际应用，作者提供了基于不同主干网络的两个版本：CTDNet-18和CTDNet-50。如下表所示，在五个主流的SOD数据集上的实验结果表明，与最新的方法相比CTDNet-18具有相当甚至更好的性能，而CTDNet-50实现了最好的性能。此外，CTDNet-18只有11.82M的参数，对于352×352输入图像在GTX1080Ti GPU上可以达到180fps的速度，比现有的方法小得多，速度也快得多。