前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >北航 & 上海智能实验室提出 CDMamba | 缩放残差卷积和特征融合增强 Mamba , 用于检测任务,性能 SOTA !

北航 & 上海智能实验室提出 CDMamba | 缩放残差卷积和特征融合增强 Mamba , 用于检测任务,性能 SOTA !

作者头像
用户5536580
发布2024-07-04 15:30:29
550
发布2024-07-04 15:30:29
举报
文章被收录于专栏:未来先知未来先知

最近,基于状态空间模型的Mamba架构在一系列自然语言处理任务中展示了卓越的性能,并迅速应用于遥感变化检测(CD)任务。 然而,大多数方法通过直接修改Mamba的扫描模式来增强全局接收域,忽视了局部信息在密集预测任务(如CD)中扮演的关键角色。 在本文中,作者提出了一种名为CDMamba的模型,该模型有效地结合了全局和局部特征来处理CD任务。 具体来说,作者提出了缩放残差卷积Mamba(SRCM)块,利用Mamba提取全局特征的能力和卷积来增强局部细节,以缓解当前基于Mamba的方法在密集预测任务中缺乏详细线索且难以实现精细检测的问题。 此外,考虑到CD所需的 双时相特征交互特性,作者提出了自适应全局局部引导融合(AGLGF)块,以动态促进由其他时相的全局/局部特征引导的双时相交互。 作者的直观感受是,在其他时相特征的指导下,可以获得更具辨别力的变化特征。 在三个数据集上的大量实验表明,作者提出的CDMamba超越了当前最先进的方法。 代码: https://github.com/zmoka-zht/CDMamba。

I Introduction

变化检测在遥感技术不断发展的推动下,已成为遥感界的一个热门研究领域。这项任务的目的是利用在不同时间获取的遥感图像来监测同一地区地表的变化。变化检测在诸如城市规划、土地覆盖分析[5]、灾害评估[6, 7]、生态系统监测以及资源管理[12]等各个领域都发挥着至关重要的作用。

光学高分辨率遥感图像因其能够提供丰富的细节特征,如纹理和几何结构信息,而在变化检测领域被广泛应用。然而,遥感图像空间分辨率的提高增加了同一地区的异质性,这大大限制了依赖于经验设计方法的传统变化检测方法(如基于代数的[9, 10]、基于变换的和基于分类的方法[16, 17])在处理复杂地面条件时的有效性。

深度学习技术的发展为变化检测领域带来了一个充满希望的新解决方案,显著提高了检测的准确性和效率。自从Daudt等人[18]将全卷积网络(FCN)引入变化检测领域以来,基于CNN的变化检测网络一度占据主导地位。已经提出了几项具有代表性的工作,这些工作结合了变化检测任务的特点。例如,张等人提出了DSIFN[19],这是一个结合了深度监督的CNN变化检测网络。方等人提出了SNUNET[21],利用密集连接来学习深特征的时空关系。尽管上述方法取得了满意的结果,但CNN结构的固有局限性(由于感受野限制而缺乏足够的全局建模能力)使得在具有不同空间和时间分辨率的复杂场景中实现准确识别具有挑战性。

视觉Transformer的快速发展[22, 23, 24, 25]为上述问题提供了解决方案。特别是通过利用视觉Transformer中的自注意力机制,它有效地建模了任何区域与整个图像之间的关系,因此解决了CNN接收域不足的问题。如今,越来越多的方法将Transformer模型应用于变化检测任务中[26, 27, 28, 29, 30, 31]。例如,Chen等[28]利用Transformer构建了一个双时相图像Transformer模块以捕捉全局时空关系。Bandara等[27]提出了Changedformer,它使用视觉Transformer的一个变体来构建一个提取双时相图像特征的主干网络。另一个类似的工作是由Zhang等[26]提出的Swinsunet。

然而,将Transformer用于图像处理时的复杂度与图像块长度成二次方增长。这导致计算成本显著增加,使得它对于像变化检测这样的密集预测任务不太友好。一些方法试图通过限制窗口大小[32, 24, 33]或利用稀疏注意力机制将Mamba模型的局部接收场扩展为全局接收场,以捕获图像的更全面的全球特征。然而,在变化检测等密集预测任务中,局部信息在准确检测中起着至关重要的作用。基于Mamba开发一个有效的结构,该结构能够整合**全局

并且局部**信息对于推进变化检测领域的研究具有重要价值。

在本文中,作者提出了变化检测Mamba(CD-Mamba),这是一个简单而有效的模型,它结合了全局和局部特征来处理变化检测任务。具体来说,CD-Mamba主要由缩放残差ConvMamba(SRCM)和自适应全局局部引导融合(AGLGF)块组成。与当前仅依赖普通Mamba的方法不同,SRCM融入了局部性的设计,旨在有效地从图像中提取全局和局部线索,旨在减轻现有基于Mamba的方法在获取细粒度检测时缺乏详细特征的挑战。此外,考虑到变化检测任务中对双时相特征交互的需求,AGLGF被设计用来促进全局/局部特征引导的双时相交互。通过从另一时相图像引导,模型被提示更多地关注变化区域,从而进一步获得具有辨识力的差异特征。

总之,本文的主要贡献如下:

  • 提出了一种新颖的变化检测网络CDMamba,它有效地利用了缩放残差ConvMamba(SRCM)模块整合全局和局部信息,并减轻了在处理密集预测任务(如变化检测任务)时Mamba缺乏局部线索的挑战。
  • 提出了一种自适应全局局部引导融合(AGLGF)块,它动态地整合由另一时相图像引导的全局/局部特征融合,为变化检测任务提取更具辨识力的变化特征。
  • 在WHU-CD、LEVIR-CD和LEVIR+CD三个数据集上的定性和定量研究表明,作者提出的CDMamba取得了最先进的结果。

本文的其余部分组织如下。第二节描述了相关工作。第三节详细介绍了作者提出的方法。第四节报告了一些实验结果。第五节得出结论。

II Related Work

CNN-based CD Models

随着深度学习技术的蓬勃发展,卷积神经网络(CNNs)因其出色的局部特征提取能力而受到广泛关注,并已应用于变化检测(CD)领域的早期阶段。Daudt等人[18]作为先驱,引入了全卷积网络(FCN)的方法,提出了FC-Siam-Conc,该方法沿着通道维度将双时相图像进行拼接,并将其作为单个输入处理,同时还提出了两个变体,即FC-EF和FC-Siam-Diff,它们使用暹罗CNN处理双时相输入。

Fang等人[21]提出了一种密集连接的CNN网络,以实现双时相图像特征的全面交互。张等人[19]通过将监督(例如,深度监督)应用于不同阶段的CNN提取的差异特征,实现了多 Level 细粒度检测。Shi等人[48]通过结合注意力机制模块改进了基于深度监督的方法,以获得更具辨别力的特征。Lei等人[49]提出了一种差异增强网络,有效地学习前景和背景之间的差异表示,以减少不相关因素对检测结果的影响。

为了学习更具辨别力的目标级特征,Liu等人[50]提出了一种双任务约束的深度暹罗卷积网络来实现这一目标。为了追求相同的目标,Liu等人[51]提出了一种基于超分辨率的变更检测模型,利用对抗性学习减轻不同分辨率双时相图像中的累积误差。姜等人[52]提出了一种加权多尺度编码网络,通过自适应地加权多尺度特征,精确检测不同尺度的变化区域(例如,大变化区域或小变化区域)。同时,黄等人[53]通过构建基于选择卷积核和多个注意力机制的MASNet,实现了多时相特征的选择性融合。

张等人[54]提出了一种将超像素采样网络与CNN结合的方法,以减少像素级特征图中的潜在噪声。吕等人[55]采用自适应生成的变化幅度图像(CMI)来指导变更检测模型的学习,旨在保留变化区域的形状和大小。

然而,尽管上述方法的有效性,CNN固有的局部感受野属性使其难以捕获长距离依赖。在变更目标稀疏的CD任务中,这一限制是根本性的。在本文中,作者结合了最近提出的具有出色长距离建模能力的Mamba[39],构建了一个变更检测网络,以缓解上述问题。

Transformer-based CD Models

随着Transformers [22, 56] 在计算机视觉任务中的兴起,它们在建模长距离依赖关系方面的有益能力在变化检测(CD)领域引起了关注。Chen等人 [28] 提出了BIT(双时态图像Transformer)模型,将Transformers引入到变化检测领域。它通过将双时态特征稀疏化为视觉标记,实现了有效的上下文建模。Zhang等人 [26] 利用权重共享的SwinTransformer [24] 构建了一个用于提取多级特征的主干网络,并通过通道注意力机制进一步增强了这些特征。同样,Bandara等人 [27] 采用Segformer [35] 提取多级特征,然后对这些特征进行差异化处理,并将其输入到解码器中预测检测结果。

Liu等人 [29] 利用深度监督的概念对不同尺度的视觉特征进行标记化,并进行多尺度监督。Li等人 [57] 提出的密集注意力细化网络(DARNet)利用基于Transformer的混合注意力机制来建模双时态特征的空间时间关系。Feng等人 [31] 提出了内尺度与间尺度交叉交互特征融合网络,利用Transformers来建模双时态特征的内尺度和间尺度关系。

在此基础上,Feng等人 [30] 将沿通道拼接的双时态特征作为共享 Query ,来建模不同时态图像之间的空间时间关系。Song等人 [58] 利用基于Transformers的轴向交叉注意力来捕捉双时态特征之间的全局关系。为了解决在特征提取阶段双时态特征之间缺乏交互的问题,Zhang等人 [4] 提出了一种基于Transformer的双时态图像特征提取方法。

尽管上述基于Transformer的方法在CD中取得了巨大的性能,但Transformer在处理图像时的复杂度与图像块的长度的平方成正比,这导致了显著的计算成本,对于像CD这样的密集预测任务并不利。在本文中,作者将Mamba整合到作者的CD模型中,由于Mamba具有线性复杂度,被认为是Transformer的替代品,以此来减轻上述提到的计算挑战。

Mamba-based Models in Vision Tasks

近期,与Transformer相比,具有输入序列长度线性计算复杂性的状态空间模型(如Mamba),在有效建模长序列方面显示出潜力,为视觉任务解决长期依赖关系提供了另一种解决方案。朱等人[59]在视觉任务中率先应用了Mamba。特别是为了处理位置敏感的图像数据,作者提出了视觉Mamba(Vim),它结合了位置编码和双向扫描,有效地捕捉图像的全局上下文。几乎同时,刘等人[60]引入了VMamba,通过四向扫描(左上,右下,右上和左下)穿越图像空间,解决了位置敏感的挑战。

从那时起,基于Mamba的方法如雨后春笋般涌现。基于Mamba模块提出了处理医学图像的特定结构,包括Mamba-Unet[61],VM-Unet[46],U-Mamba[62],LightM-Unet[42],SegMamba[63]。杨等人[45]提出了PlainMamba,通过方向感知的标记实现了2D连续扫描。

Pei等人[64]通过使用膨胀卷积技术改进了Mamba的扫描方法,提高了Mamba的效率。黄等人[65]提出了LocalMamba,它通过动态搜索过程为不同层动态确定扫描方案。陈等人[43]将视觉句子和视觉单词的概念应用于将Mamba融入到红外小目标检测中。最近,有几种将Mamba应用于遥感任务的方法。陈等人[66]提出了RSMamba,结合了Shuffle与正向和反向扫描。

赵等人[67]引入了对角线扫描来处理图像分割和变化检测任务。

大约在同一时间,陈等人[68]利用多种扫描方法学习双时相数据之间的时空关系。

尽管上述方法取得了有希望的结果,但它们大多数依赖于修改Mamba的扫描方法以增强全局感受野。然而,对于像CD这样的密集预测任务,局部信息在实现精确检测方面起着关键作用。

在本文中,作者结合了Mamba提出了一个简单且高效的结构,该结构融合了全局和局部信息。此外,作者利用该结构构建了一个旨在实现细粒度检测的CD模型。

III CDMamba

Preliminaries

最近出现的结构化状态空间序列模型(SSMs)(例如,S4)主要是受到线性时不变系统的启发。这些模型通过隐藏状态 将一维函数或序列 映射到 。通常,该系统被表述为一个线性常微分方程(ODE):

其中 表示状态大小,, 和 。

随后,为了将连续时间表示整合到深度学习算法中,通常会引入时间尺度参数 来离散化连续参数 和 ,使用常见的零阶保持(ZOH)方法。转换结果产生了离散参数 和 。

离散化后,方程(1)和方程(2)可以表示为:

最终输出可以通过全卷积计算直接获得。

然而,上述过程的参数对于不同的输入保持不变。为了解决这一限制,最近提出的Mamba结合了扫描机制与数据相关可学习参数 , 和 ,以动态调整模型学习到的上下文内容。此外,还提出了硬件感知算法,以增强其在GPU上的效率。

Overview

所提出的CDMamba架构如图1(a)所示,它由缩放残差ConvMamba编码块、缩放残差ConvMamba解码块和自适应全局局部引导融合(AGLGF)块组成。给定双时相遥感图像 和 ,其中3表示通道维度, 和 分别表示图像的高度和宽度。首先, 和 被输入到卷积流(ConvolutionStream)中分别提取浅层特征,得到浅层特征图 和 。随后,这些特征被送入多个级联编码器块,包括缩放残差ConvMamba(SRCM)、残差连接和下采样,以提取不同尺度的双时相特征 和 。考虑到变化检测任务中对双时相特征交互的需求,所获得的多尺度深层特征分别送入AGLGF块,该块包括全局/局部引导融合块和自适应门控,以促进学习丰富的语义上下文。

具体来说,全局/局部引导融合块用于实现双时相交互,自适应门控用于执行自适应融合。最终,通过绝对减法的方法获得各种尺度差异特征 。在解码阶段,差异特征 被送入由SRCM、卷积和上采样操作组成的解码器中。通过与相邻尺度的特征融合,特征图逐渐恢复到原始图像大小。最后,通过线性投影得到变化检测结果。

Scaled Residual ConvMamba Block

在密集预测任务(例如,CD)中,局部信息在准确检测中起着至关重要的作用。然而,目前基于Mamba的方法主要关注于通过设计不同的扫描方法来增强模型提取全局特征的能力,常常忽视了局部信息的重要性。作者旨在探索一种简单而有效的结构,该结构结合了Mamba,同时融合全局和局部信息。一种简单的方法是将卷积提取的局部特征与Mamba提取的全局特征相结合。

因此,作者提出了图1(b)所示的缩放残差ConvMamba模块。

给定输入特征,SRCM模块首先应用LayerNorm [69],然后通过一个ConvMamb模块捕获全局和局部空间特征,得到。此外,为了捕获更全面的环境特征,通过缩放残差连接实现了和的融合。融合后的特征随后通过LayerNorm进行归一化,并通过线性变换学习更深入的特征。整个过程可以描述如下:

特别是在ConvMamba模块中,有三个分支。第一个分支将输入特征沿通道维度的一半作为输入,然后通过线性变换将维度扩展到,接着使用SiLU [70] 函数进行激活。ConvMamba模块中第二个分支的输入与第一个分支类似,它将输入特征沿通道维度的另一半作为输入。随后,特征顺序通过维度扩展的线性层、ConvId层、SSM和LayerNorm。在此之后,通过哈达玛积融合这两个分支提取的特征,旨在以这种方式捕获全局特征[39]。第三个分支的输入是转换后的,其中被 Reshape 为

其中表示哈达玛积,C1和C2分别表示Conv1d和Conv2d。

Adaptive Global Local Guided Fusion Block

考虑到在CD任务中对双时态特征交互的需求,作者提出了自适应全局局部引导融合块(AGLGF),如图1(d)所示,该块动态地组合全局引导和局部引导的特征,以提供更具辨别力的变化特征。

以引导进行特征融合为例。给定双时态特征,(为简便起见,省略阶段索引),它们都被送入图2(a)所示的全局引导特征融合(G-GF)模块。具体来说,G-GF模块受到交叉注意力的启发,并采用三分支设计,用前两个分支处理。第一个分支

使用线性映射后接SiLU激活函数。

第二个分支应用线性映射,后接Conv1d和SSM,然后是LayerNorm。最后,通过哈达玛积融合两个分支的特征,得到中间特征。第三个分支用于处理。最初,通过线性变换在维度上进行扩展。随后,它依次送入Conv1d层和SSM,通过扫描[39]学习全局特征。

与第二个分支不同,这里引入了一个额外的门控机制,以控制哪些特征将被激活以引导。具体过程如下:

此外,作者提出了一个局部引导特征融合(L-GF)模块,用于利用来自的局部特征来指导,如图2(b)所示。与G-GF类似,L-GF在提取特征时执行相同的操作。然而,在第三个分支中提取局部特征时,首先将转换成,然后输入到由激活函数激活的Conv2d层。最后,通过门控机制将特征展平并与融合。具体过程如下:

在获得和之后,作者采用动态门控机制来促进互补特征融合,同时抑制冗余特征。具体来说,来自和的信息通过取它们的平均值压缩到通道维度。这些压缩的特征沿着通道维度进行拼接,并输入到线性层以获得动态门控的值。最终,通过加权求和融合和,获得动态融合的全局和局部特征。过程如下:

同样,通过交换和的输入位置,可以获取由引导的。最后,利用绝对减法方法,使用和生成差异特征。

IV Experimental Results and Analysis

Data description

在三个具有代表性的变化检测(CD)数据集上进行了大量实验,以验证所提出的CDMamba的实际性能。#### III-A1 武汉大学

WHU-CD [71] 是一个专为CD任务定制的数据集,包含了一对新西兰的空间遥感图像,分辨率为0.2米/像素,大小为32507x15354,分别于2012年4月和2016年4月拍摄,覆盖面积为20.5平方公里。由于在[71]中没有提供分区策略,作者采用了主流方法(例如,[4, 28])将图像切割成256x256的块,并将它们分为6096/762/762用于训练/验证/测试。

Iii-A2 Learning, VISion, and Remote sensing

LEVIR-CD [1]是一个广泛使用的CD数据集,包含637对谷歌地球图像,图像块大小为1024x1024,分辨率为0.5米/像素,时间跨度从5到14年不等。该数据集专注于与建筑物相关的变化,例如建筑物的增加和移除。作者使用官方来源[1]提供的方法将图像划分为不重叠的256×256大小的图像块,并将它们分为7120/1024/2048用于训练/验证/测试。

Iii-A3 Levir+-Cd

LEVIR+-CD数据集是LEVIR-CD的扩展,包含985对图像,空间 Patch 大小为1024×1024像素。该数据集特别关注包括城市居民区、小型车库、大型仓库等各种类型的建筑物。作者按照主流分割方法(例如[4])将图像切割成256×256大小的 Patch ,并将其分为10192/5568用于训练/测试。

Experimental setup

Iii-B1 Architecture details

在提出的CDMamba中,在编码器阶段,将Conv Stream的卷积核大小设置为3,步长为1,输出通道数设置为16以进行浅层特征提取。编码器块中每个四个阶段的层数设置为。提取的图像特征的空间分辨率分别与原始图像大小相同,1/2,1/4和1/8。通道数设置为。在每个阶段,使用双线性插值进行下采样。在包含线性(Linear)和Conv2d操作的ConvMamba模块中的通道扩展因子设置为2。AGLGF块在不同阶段的通道维度与编码器各阶段的ConvMamba一致。在解码器阶段,每个阶段的解码块数量设置为。为了减少参数,SRCM使用深度可分离卷积,并通过双线性插值进行上采样。

Iii-B2 Training details

提出的CDMamba是基于Pytorch框架实现的,并在NVIDIA RTX 4090上运行。在优化方面,作者使用了Adam优化器,初始学习率为1e-4, 和 分别为0.9和0.999。小批量大小设置为6。总训练周期为300。损失函数是交叉熵损失和dice损失[72]的和。

其中 和 表示损失函数的系数, 是第个像素的真实值, 表示第个像素的概率。 表示像素的数量。

Iii-B3 Evaluation metrics

为了评估所提出的CDMamba模型的性能,作者采用了五个关键评估指标,分别是总体准确度(OA)、精确度(Pre)、召回率(Rec)、F1分数和交并比(IoU)。OA表示正确预测的像素占总像素的比例。P反映了在所有预测为阳性的像素中真实阳性像素的比例。R表示在所有真实阳性的像素中真实阳性像素的比例。F1分数通过计算P和R的调和平均值来平衡精确度和召回率。IoU测量预测的阳性区域和真实阳性区域之间的重叠。这些指标可以分别定义如下。

其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的数量。值得注意的是,F1和IoU可以更好地反映模型的泛化能力。

Performance comparison

为了验证CDMamba在CD任务中的有效性,本节选择了几种最先进的方法进行比较,包括基于CNN的方法(FC-EF [18],FC-Siam-Diff [18],FC-Siam-Conc [18],IFNet [19]和SNUNet [21]),基于Transformer的方法(SwinUnet [26],Changeformer [27],BIT [28],MSCANet ,Paformer,DARNet [57],ACABFNet [58],和DMINet [30]),以及基于Mamba的方法,ChangeMamba。

为了公平比较,所有方法都在相同的条件下基于官方发布的Pytorch代码进行训练。

Iii-C1 Quantitative results

表1展示了所有比较方法在WHU-CD、LEVIR-CD、LEVIR+-CD测试集上的总体性能。红色字体表示最佳结果,其次是绿色,蓝色表示第三佳结果。显然,与基于CNN的方法、基于Transformer的方法或最新的基于Mamba的方法相比,作者提出的CDMamba展示了卓越的性能。具体来说,与基于CNN的方法相比,在WHU-CD数据集上,尽管CDMamba相对于FC-Saim-Diff的Rec.指标相对较低,但在其他指标上却优于FC-Saim-Diff,表明CDMamba在检测变化区域方面具有更高的准确性。

与基于Transformer的方法相比,尽管在LEVIR-CD数据集上CDMamba的Pre.指标相对于DARNet较低,但在其他衡量标准上却优于DARNet,这表明CDMamba在检测变化区域方面更为全面。与最近提出的基于Mamba的方法(RS-Mamba和ChangeMamba)相比,本文提出的CDMamba虽然在某些精度和召回率指标上不是最优的,但在F1分数和IoU方面取得了最佳性能。对于F1分数,在WHU-CD、LEVIR-CD和LEVIR+-CD数据集上分别提高了0.97%/1.21%、0.98%/0.59%和2.10%/2.24%。这表明CDMamba在检测变化区域方面提供了更加平衡的性能。总之,上述定量分析证明,对于像CD这样的密集预测任务,有效结合局部和全局信息是至关重要的。

Iv-B2 Qualitative results

为了进一步说明作者提出方法的有效性,作者对WHU-CD、LEVIR-CD、LEVIR+-CD测试集进行了定性分析(图3-5),其中不同的颜色被用来标识检测的正确与否,包括TP(白色)、TN(黑色)、FP(红色)和FN(绿色)。

对WHU-CD的可视化(图3):作者选择了一些具有代表性的样本进行可视化比较。例如,图3(a)和图3(b)描述了建筑物发生大规模变化的情况,而图3(c)和图3(d)则展示了复杂场景中小型建筑物变化的情况。从图3(a)可以看出,作者的CDMamba方法明显优于其他竞争者。与基于CNN和Transformer的方法相比,它们在变化边缘有明显的遗漏和误检,而作者的方法具有更详细的边缘结构。与基于Mamba的方法在小变化区域显示出的遗漏检测相比,作者的CDMamba提供了更准确的检测结果。如图3(b)所示,与更容易受到不相关变化干扰的基于CNN和Transformer的方法相比,基于Mamba的方法取得了更稳健的结果。然而,尽管RS-Mamba和ChangeMamba取得了相对满意的结果,但它们有严重的误检。

相比之下,作者的CDMamba取得了更全面的检测结果。比较图3(d)中各种方法的检测结果,尽管大多数模型完全错过了变化区域,但作者的CDMamba即使在复杂场景中也能检测到小变化区域。总之,作者的CDMamba利用了全局和局部建模的优势,在抵抗不相关变化的干扰方面表现出更强的能力,并提供了更精细的局部检测能力。

对LEVIR-CD的可视化(图4):作者采用了类似的方法,在LEVIR-CD数据集上选择了一些代表性样本进行比较。图4(a)和图4(b)展示了大规模建筑物的变化情景,而图4(c)和图4(d)表示小规模建筑物变化的场景。如图4(a)和图4(b)所示,在检测大型不规则建筑物时,作者的CDMamba超过了基于CNN、Transformer或Mamba方法模型的表现。此外,CDMamba在小规模建筑物变化情景中同样取得了优异的结果,如图4(c)和图4(d)所示。与RS-Mamba和ChangeMamba错过小变化区域相比,CDMamba能更有效地检测这些区域。这一现象可能是由于集成了局部特征提取能力,使其对小变化更为敏感。

对LEVIR+-CD的可视化(图5):在LEVIR+-CD数据集上,作者也选择了一些代表性样本。图5(a)和图5(b)代表了大规模建筑物的变化场景,而图5(c)和图5(d)显示了小变化区域的场景。显而易见,作者的CDMamba在所有场景中取得了最佳结果。特别是,在图5(d)所示的小变化区域场景中,基于CNN、Transformer和Mamba的方法几乎完全错过了变化,而作者的CDMamba的检测结果与 GT 情况几乎相同。这进一步证明了CDMamba的有效性。

Iv-C3 模型效率

为了进一步验证所提出模型的效率,表2展示了模型参数(Params.)和在LEVIR+CD数据集上训练一个周期所需的时间(Time)。与基于Transformer的方法Changeformer相比,作者的CDMamba在参数和训练时间上都表现得更好,显示出更高的效率。此外,与基于Mamba的方法RS-Mamba和ChangeMamba相比,作者的CDMamba具有轻量级的结构,尽管其训练时间稍高于它们。这是因为当RS-Mamba和ChangeMamba在进一步处理之前对输入图像进行4下采样时,CDMamba直接处理原始大小的图像,因此在训练时间上比前两种方法稍长。

Ablation studies

在本节中,作者在WHU-CD数据集上进行了系列实验,以研究作者提出的方法中每个组件及参数设置对模型性能的影响,如表3-VII所示。

Iv-D1 Effects of Different Components in CDMamba

为了验证CDMamba中关键模块的有效性,作者设计了八个消融实验。此外,原始的Mamba框架被配置为与CDMamba的结构相匹配,作为比较的 Baseline 。如表格III所示,无论单独添加关键模块还是相互结合添加,实验结果都优于 Baseline 。变化检测的关键指标F1和IoU分别提高了6.45%和10.78%。这一显著提升展示了在变化检测任务中,有效整合全局和局部特征以及自适应差异特征融合的重要性。值得注意的是,在添加了SRCM模块后,模型的检测性能显著提高。作者认为这一现象定量地证明了在准确检测诸如变化检测这类密集预测任务中,全局-局部信息融合的关键作用。为了进一步验证这一直观感受,作者可视化了 Baseline 和 Baseline +SRCM的结果,如图6所示。可以观察到,无论是在其他建筑物干扰的复杂场景中,还是在添加了大量建筑物的场景中, Baseline +SRCM的结果结构更清晰,边缘更明显。上述现象定性地证明了在密集预测任务(例如,变化检测)中整合全局和局部信息的关键作用。

Iv-D2 Effects of different stages of AGLGF

为了进一步探索AGLGF在不同阶段对检测性能的影响,作者进行了如表4所示的实验。W/O AGLGF表示没有AGLGF模块的CDMamba,而S1-S4代表加入AGLGF模块的阶段。随着AGLGF的逐步加入,模型的性能(F1/IoU)持续提升,直到第二阶段达到最佳性能。然而,进一步增加AGLGF会导致模型性能下降。这可能是由于深层语义特征在提供详细信息方面的难度,使得模型通过引导学习差异特征变得困难,从而影响模型的性能。为了提供更直观的解释,作者在WHU-CD测试集上可视化了W/O AGLGF与W/ AGLGF在四个阶段的差异特征。如图7所示,在较浅的阶段加入AGLGF可以产生更好的可视化结果。特别是,在较浅的阶段加入AGLGF使模型更加关注变化区域(例如,在第二阶段的可视化中,W/O AGLGF主要关注整个图像,而W/AGLGF关注变化区域),这可以为后续阶段提供更好的指导。

Iv-D3 Effects of Different Gate Activation

为了进一步探讨不同的门控激活方法对模型性能的影响,作者进行了如表5所示的实验。在G-GF和L-GF中将替换为不同的激活函数。可以观察到,非饱和门控激活函数往往比饱和门控激活函数取得更好的结果。这可能是因为饱和激活函数倾向于丢失输入的详细特征,使得模型难以实现有效的引导。同时,作者发现只需相对简单的ReLU门控激活就能达到最佳性能。

VI Conclusion tivation. Therefore, ReLU is chosen as the final gate activation for the model.

因此,选择ReLU作为模型的最终门控激活函数。

Iv-B4 Effects of Different Dimensions

为了探索不同维度卷积在L-GF中对模型性能的影响,作者进行了如表6所示的实验。其中d-model表示不同阶段的特征维度(具体设置详见IV-B1)。1.5d-model表示将特征维度扩展到原来的1.5倍。类似地,2d-model意味着将模型的特征维度翻倍。随着特征维度的不断扩展,模型的性能也逐渐提高。然而,当将特征维度从1.5d-model扩展到2d-model时,性能提升的速度开始放缓。因此,作者选择性能最佳的2d-model作为模块的最终维度。

Iv-B5 Coefficients of Loss Function

为了验证不同的损失函数系数对模型性能的影响,作者在WHU-CD数据集上进行了相应的实验。实验结果如表7所示,其中代表交叉熵损失的系数,表示_dice损失系数。实验结果表明,当和相对平衡时,模型的性能最佳。因此,作者选择==0.5作为最终的损失函数系数。

V Conclusion

在本文中,作者提出了一种名为CDMamba的新模型,该模型有效地结合了全局和局部特征来解决CD任务。具体来说,为了解决当前基于Mamba的方法在密集预测任务(如CD)中缺乏详细特征且难以实现精确检测的问题,作者提出了缩放残差ConvMamba(SRCM)块,它将Mamba提取全局特征的能力与卷积提取局部线索的能力相结合,以捕捉更全面的图像特征。

此外,考虑到CD中双时相特征交互的需求,设计了一个自适应全局局部引导融合(AGLGF)块,以促进由全局和局部特征引导的双时相特征的交互。

在作者的直觉中,利用来自另一时相的特征来指导特征融合可以进一步获得更具辨别力的差异特征。许多消融实验验证了每个模块的有效性。

同时,在三个公共数据集(WHU-CD、LEVIR-CD和LEVIR+CD)上的实验结果表明,作者的方法优于其他最先进的方法。在未来的工作中,作者将通过结合自监督学习方法,探索Mamba架构在遥感图像密集预测任务中的应用。

参考

[1].CDMamba: Remote Sensing Image Change Detection with Mamba.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related Work
  • CNN-based CD Models
  • Transformer-based CD Models
  • Mamba-based Models in Vision Tasks
  • III CDMamba
  • Preliminaries
  • Overview
  • Scaled Residual ConvMamba Block
  • Adaptive Global Local Guided Fusion Block
  • IV Experimental Results and Analysis
  • Data description
  • Iii-A2 Learning, VISion, and Remote sensing
  • Iii-A3 Levir+-Cd
  • Experimental setup
  • Iii-B1 Architecture details
  • Iii-B2 Training details
  • Iii-B3 Evaluation metrics
  • Performance comparison
  • Iii-C1 Quantitative results
  • Iv-B2 Qualitative results
    • Iv-C3 模型效率
    • Ablation studies
    • Iv-D1 Effects of Different Components in CDMamba
    • Iv-D2 Effects of different stages of AGLGF
    • Iv-D3 Effects of Different Gate Activation
    • VI Conclusion tivation. Therefore, ReLU is chosen as the final gate activation for the model.
    • Iv-B4 Effects of Different Dimensions
    • Iv-B5 Coefficients of Loss Function
    • V Conclusion
    • 参考
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档