IEEE顶刊论文分享
A Universal Multi-View Guided Network for Salient Object and Camouflaged Object Detection
公众号介绍
本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态,欢迎各位同学关注、点赞和分享,您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。
动动您的小手指,关注一下吧!Part.1
摘要
显著目标检测和伪装目标检测由于其重要的实际应用而越来越受到人们的关注。虽然这两个领域在识别方法和对象特征上有相似之处,但它们也表现出区别。在本文中提出了一种新的多视图引导网络用于伪装和显著目标检测,利用Transformer作为主干网络进行特征提取。利用共享特性,我们引入了基于cnn的多视角编码器和多视角融合模块,增强了多视角信息的获取,同时最大限度地减少了计算成本的增加。此外,在识别领域差异的基础上,我们引入了一个注意力探索模块,将多视图特征与从骨干网络中全局提取的特征无缝集成。这种整合包括从位置和颜色角度同时探索,挖掘有价值的信息,以识别突出和伪装的物体。本文的方法最大限度地发挥了两个任务之间的共同特征,同时有效地解决了它们之间的差异,从而实现了精确的目标识别——无论是伪装的目标还是显著的目标。在9个具有挑战性的基准数据集上进行的大量实验表明,我们的方法在4个广泛使用的评估指标上表现优异,优于34种最先进的方法。此外,将本文的方法应用于其他视觉相关的任务,如息肉分割和缺陷检测。结果进一步证明了我们模型的通用性。
图1 MVGNet的整体流程。本文使用Transformer作为主干网络进行特征提取。此外,我们设计了一个基于cnn的多视图编码器来提取多视图特征。融合的多视图特征,以及从Transformer中全局提取的特征,被输入到我们设计的注意力探索模块(AEM)中。该模块系统地从伪装和突出的角度探索特征,最终产生高分辨率的预测图像。
Part.2
现有方法的局限
显著目标检测的目标是从图像中分割出最引人注目的目标,这些目标可能在形状、大小、颜色和空间位置等方面表现出显著性。而伪装目标检测则专注于分割那些与背景完美融合、难以被察觉的目标。尽管这两个任务看似矛盾,但它们在目标特征和检测方法上存在一定的相似性和相关性。然而,现有的方法大多只关注其中一个任务,缺乏一个统一的框架来同时处理这两个任务。
显著目标检测(SOD):现有的SOD方法主要基于卷积神经网络(CNN)或Transformer架构,通过提取图像特征来识别显著目标。然而,这些方法在处理伪装目标时往往表现不佳,因为它们没有考虑到目标与背景的融合问题。
伪装目标检测(COD):现有的COD方法主要关注目标的边界信息和纹理特征,但这些方法在处理显著目标时也存在局限性,因为它们没有充分利用目标的空间位置信息。
图2 多视图融合模块的图示
Part.3
研究流程
这篇文章提出了一种名为 MVGNet(Multi-View Guided Network) 的网络架构,用于同时处理显著目标检测(SOD)和伪装目标检测(COD)。以下是该方法的详细流程:
1. 网络架构概述
MVGNet 是一个端到端的可训练框架,主要由以下几个部分组成:
Transformer 作为骨干网络:用于提取全局特征。
CNN 基础的多视图编码器(MVE):用于提取多视图信息。
多视图融合模块(MFM):用于整合多视图信息。
注意力探索模块(AEM):用于从颜色和空间位置两个角度探索目标的显著性。
损失函数:用于监督网络训练。
2. 特征提取
2.1 Transformer 骨干网络
使用 Pyramid Pooling Transformer (P2T) 作为骨干网络,提取全局特征。
输入图像经过预处理后输入到骨干网络,输出四组特征图。
将这些特征图的通道数调整为 64。
2.2 多视图编码器(MVE)
输入包括原始图像、放大后的图像和缩小后的图像。
MVE 通过 CNN 提取多视图信息,输出三组特征向量。
3. 多视图信息融合
3.1 多视图融合模块(MFM)
输入为 MVE 输出的三组特征。
首先通过卷积和双线性插值操作将特征图的尺寸统一。
将统一后的特征图进行拼接,然后分为两个并行路径:
一个路径用于探索通道间的关系,生成通道注意力分数。
另一个路径执行卷积操作,生成特征图。
通过通道注意力分数加权特征图,得到融合后的特征图和粗略预测图。
4. 注意力探索模块(AEM)
输入包括全局特征和多视图融合后的特征。
AEM 包含两个并行部分:颜色探索和位置探索。
颜色探索:
调整输入特征的大小,得到查询、键和值。
将粗略预测图与查询和键进行融合,计算通道注意力图。
通过矩阵乘法和残差连接,得到颜色探索的结果。
位置探索:
对输入特征进行通道降维,调整大小,生成查询和键。
将粗略预测图与查询和键进行融合,计算空间注意力图。
通过矩阵乘法和残差连接,得到位置探索的结果。
将颜色探索和位置探索的结果进行融合,生成高分辨率的预测图。
图3 注意探索模块的图示。该模块分为两个并行执行。色彩探索部分负责从通道角度探索图像中的色彩关系,以识别伪装对象。位置探索部分负责从空间角度探索目标的空间关系,以识别显著目标。最后,将两部分的探索成果进行了全面的整合。
5. 损失函数
使用混合损失函数,包括加权交并比(wIoU)损失和加权二值交叉熵(wBCE)损失。
引入不确定性感知损失(UAL),强调预测结果中的不确定性和模糊性,更好地指导网络识别目标的详细信息。
对最终结果和 CNN 分支的粗略预测结果进行监督。
Part.4
实验结果
图 4 在显著目标检测领域,将该方法与公开可用数据集上的相关方法进行了比较。第一行描述了精确召回率(PR)曲线,第二行表示F-measure 曲线,本文的结果用红色突出显示。
图5 将该方法与公开数据集上伪装目标检测领域的相关方法进行了比较。第一行描述了精确召回率(PR)曲线,第二行表示F-measure 曲线,本文的结果用红色突出显示。
图6 与其他显著目标检测方法的比较。
图6 与其他显著目标检测方法的比较。
领取专属 10元无门槛券
私享最新 技术干货