近期的Segment Anything Model (SAM) 在扩展分割模型方面取得了显著突破,在RGB模态的各种下游应用中表现出了强大的性能。然而,直接将SAM应用于新兴的视觉模态,如深度和事件数据,在多模态分割任务中会导致性能不佳。 在本文中,作者首次尝试通过提出一种针对不同输入视觉模态的Mixture of Low-Rank Adaptation Experts (MoE-LoRA) 来适应SAM进行多模态语义分割。通过仅训练MoE-LoRA层而固定SAM的权重,可以保留SAM在其下游任务中的强大泛化能力和分割能力。 具体来说,为了应对跨模态的一致性问题,作者提出了一个新的MoE路由策略,该策略能够自适应地生成跨模态加权特征,从而增强多模态特征的整合。 此外,作者通过适配SAM的分割头并引入辅助分割头来实现多尺度特征的提取与融合,以提高分割性能。作者在三个多模态基准数据集DELIVER、MUSES和MCubeS上进行了广泛的实验。 结果表明,所提出的方法在多种场景下显著优于现有方法。特别是在模态缺失这一特别具有挑战性的条件下,作者的方法表现出显著的性能提升,相比现有方法提升了。
准确分割多样的物体对于各种场景理解应用至关重要,包括机器人感知、自动驾驶和AR/VR等[1]、[2]。段切 Anything 模型(SAM) [3] 在实例分割领域取得了突破性进展,尤其是在RGB图像方面。SAM在包含1100万张高分辨率图像及超过10亿个标注分割 Mask 的大规模数据集上进行训练,实现了卓越的零样本分割性能,使其能够在医疗成像、遥感等多个领域得到广泛应用。
尽管SAM在单模态分割任务中取得了革命性的进步,特别是在RGB图像方面,但将其应用于多模态分割则面临独特的挑战。新兴领域往往需要整合多样化的模态数据,如深度和事件数据,这些数据能够捕捉到互补的场景信息。
这些数据富含信息,但在特征表现上与RGB数据有所不同。此外,最近提出的SAM2模型[8]引入了时间维度以解决视频分割中的复杂问题,如运动、变形、遮挡和光照变化。这些进步使得SAM能够在动态和多模态环境中得到应用,但如何在保留SAM泛化能力的同时整合跨模态信息仍是一个未充分探索的领域。
尽管单模态分割中取得了成功,将SAM扩展到多模态语义分割仍面临重大挑战。每种模态,例如激光雷达、雷达和事件相机,各自表现出不同的空间、时间以及噪声特性,这使得它们难以无缝地集成到SAM的架构中[9]。由于SAM的预训练特征主要针对RGB图像优化,直接应用于异构多模态数据时往往表现不佳。现实场景进一步加剧了这种集成的复杂性,因为缺失或不可靠的模态会导致性能下降,而SAM缺乏机制来适应性地处理不完整输入[10]-[12]。此外,有效的多模态融合需要先进的技术来对齐、加权和整合输入,同时保留每个模态的独特优势。实现稳健的融合需要解决多个挑战,包括减轻模态特定噪声的影响、协调空间和时间分辨率上的差异,以及平衡每个输入模态的贡献[13]。
在本文中,作者提出了一种新颖的框架,将SAM2的功能扩展以支持多模态语义分割。如图1(a)所示,作者的方法通过为每种模态设计的低秩适配(LoRA)模块,实现了高效的模态特定微调,同时保留了SAM2预训练图像编码器的一般化能力。为了应对多模态融合固有的挑战,作者开发了一种混合LoRA专家(MLE)路由机制,该机制能够自适应地生成加权特征表示,确保不同模态之间的有效集成,并减轻由噪声或缺失输入引起的不一致性。同时,作者通过引入多尺度特征提取和融合机制,增强SAM2的分割Pipeline。具体来说,作者在原始分割 Head 基础上增加了辅助 Head ,该辅助 Head 旨在利用多个尺度上互补的信息,从而提高分割准确性。
作者的贡献如下:
(1) 作者通过将MoE机制与LoRA模块相结合,改进了SAM2框架,应用于多模态语义分割任务。此设计通过为每种模态训练独立的LoRA模块并利用动态路由机制有效整合跨模态特征,实现了高效的模态特定适应。
(2) 作者重新设计了SAM2分割Pipeline,通过引入适合多模态输入的修改后分割头,并增加一个辅助分割头,来配置多尺度特征的有效融合,显著提升了分割精度。
(3) 作者的方案在三个广泛使用的多模态基准上取得了最先进的性能,涵盖从合成数据到实际场景的不同情况,在分割精度和跨多种模态的一般化方面超越现有方法。
(4) 广泛的实验评估表明,在挑战性条件下(包括缺失模态和高噪声水平),所提出的框架具有鲁棒性和适应性,其可靠性能适用于实际应用场景。
多模态语义分割旨在利用来自多种感知模态(如RGB、深度和热数据)的互补信息,为每个像素分配语义标签,从而提高场景理解的准确性和鲁棒性[15]。该任务主要使用编码解码架构来解决,在这种架构中,编码器提取层次特征,而解码器重建像素级预测[16]-[18]。
编码器的发展受到了全卷积网络(FCN)的重大影响,这些网络使得像素级预测能够实现端到端的学习[19], [20]。FCN的重要进展包括引入空洞卷积以扩大感受野[21], [22]和使用金字塔池化模块以整合多尺度上下文信息[23]。DeepLab在此基础上进一步优化了这些方法,通过将空洞卷积与完全连接条件随机场相结合来提升分割边界和准确性[24]。然而,FCN在捕捉长程依赖性方面存在挑战,而理解复杂场景需要这种能力。基于Transformer的编码器通过使用Self-Attention机制有效地建模全局上下文来解决这一问题[25]-[31]。此外,基于Transformer的解码器结合了强大的多层次上下文挖掘,并处理由编码器提取出的各种多尺度特征,这使得在复杂或高分辨率图像中的精确且高效的分割成为可能[32]-[35]。
在多模态分割中,整合不同模态的信息可以增强场景理解,尤其是在单一模态可能不足以应对的挑战性环境中。早期融合策略在输入级将所有模态的数据结合起来,使得编码器能够学习联合表示,但可能会引入冗余或噪声 [36]-[38]。相比之下,晚期融合方法在解码前独立处理每个模态,在此过程中才合并特征,这保留了模态特有的特性,但可能限制跨模态交互 [39]-[41]。适应性融合策略在网络的不同阶段动态集成多模态数据,已成为一种灵活的解决方案。这些方法在不同的抽象 Level 对跨模态特征进行细化,并常结合使用跨模态注意力机制或专门模块以增强特征交互 [42]-[45]。
SAM [3] 和 DINOv2 [46] 是图像分割领域的突出基础模型,它们利用Vision Transformer作为 Backbone 网络。SAM 包含一个 Mask 解码器和一个灵活的 Prompt 编码器,支持多种形式的输入,如点、边界框和文本,从而实现零样本实例分割。尽管其具有广泛的适用性,但在语义分割方面,SAM 由于训练集中在关注目标边界而非语义标签的大规模数据集上,因而面临着挑战 [47]。为了使 SAM 适应语义分割,ClassWise-SAMAdapter (CWSAM) 引入了轻量级 Adapter 、按类别划分的 Mask 解码器以及高效的特定任务输入预处理方法,以在复杂的SAR影像中高效地分配语义标签 [48]。SAM-to-CAM (S2C) 架构通过基于原型的对比学习改进特征激活图 (CAM),并在CAM基础上进行 Prompt ,从而提高类别的特异性分割 Mask [49]。此外,当将 SAM 应用于非RGB数据时,如深度或事件驱动的数据时,其当前在分割任务中的鲁棒性会显著下降,这突显了需要专门适应的需求 [50]。
对像SAM这样的大型预训练模型进行特定任务的微调往往会产生较高的计算成本。参数高效的微调(PEFT)技术,如软 Prompt 、 Adapter 和LoRA提供了高效的替代方案[51]。LoRA在预训练模型中引入低秩矩阵,允许通过微调少量附加参数来高效地进行适应,同时将大部分模型权重冻结[52]。扩展技术如DyLoRA[53]和SoRA[54]在训练过程中动态调整秩,从而在多种任务上提高适应性。
LoRA的模块化特性使其能够与MoE架构集成,根据任务需求动态激活特定的LoRA模块。路由机制,如静态top-k选择[55]、[56]或动态阈值选择[57]、[58],可以高效地选择LoRA模块。结构集成方法,例如LoRAMoE[59],将LoRA模块嵌入到前馈层中,而MoELoRA[60]则将LoRA模块整合到自注意力和前馈层中,进一步增强了灵活性。MixLoRA[56]将自注意力层中的LoRA模块进行组合,并与共享的前馈层合并,以优化计算效率和表示学习。
尽管SAM展现了强大的泛化能力,但在处理涉及非RGB模态的语义分割任务时仍面临适应性限制。作者的框架代表了首次尝试通过利用针对特定模态(包括深度、LiDAR和事件相机数据)定制的MLE来适配SAM进行多模态语义分割的方法。作者提出了一种新颖的路由策略,以确保在MoE框架内的跨模态一致性,从而解决多模态集成固有的挑战。
Segment Anything 模型。SAM2 架构是一种基于 Transformer 的框架,用于实例分割任务,并集成了三个关键组件:层次化的 Backbone 网络、基于特征金字塔网络 (FPN) 的 Neck 以及一个 Mask 解码器。层次化的 Backbone 网络采用 Hiera 架构作为多尺度特征提取器,通过 Patch 层嵌入机制将输入图像映射到高维特征空间中。该 Backbone 网络逐级处理特征,每一阶段都会使特征维度翻倍,同时降低空间分辨率。这些变换利用了窗口基于的多头自注意力机制和池化操作相结合的方式,使模型能够捕获不同尺度下的空间和语义关系。基于 FPN 的 Neck 通过对不同阶段特征维度的调整和统一,产生了一个统一的多尺度表示。通过其侧向连接和自顶向下路径,特征金字塔网将浅层的细粒度细节与深层的高层语义信息融合在一起。使用基于正弦函数的位置编码来编码空间关系,增强融合后的特征以获得精确的 Mask 生成。 Mask 解码器采用基于 Transformer 的交叉注意机制,其中可学习的 Mask Token 能够迭代地与其他融合特征和位置编码进行交互。这些 Token 在多层交叉注意力和前馈操作中不断精炼。上采样模块确保最终的分割 Mask 具有高质量且细粒度。此外,解码器能够输出多个 Mask 的能力使其能够消除重叠区域并有效处理复杂场景。
数据集。为了全面评估所提出的MLE-SAM模型在多模态语义分割中的性能,选择了三个不同的数据集,这些数据集分别针对自主驾驶和材料分割任务中的特定挑战。这些数据集提供了互补的标准,以应对实际场景中诸如恶劣天气条件、传感器故障和多模态融合等复杂性问题。
DELIVER数据集[13]是一个大型多模态基准,专门设计用于自主驾驶场景中的语义分割。该数据集使用CARLA模拟器开发,并包含四种模态的数据:RGB (R)、深度 (D)、LiDAR (L) 和事件 (E),从而支持先进的多模态融合研究。该数据集包含7,885张前视图像,每张图像分辨率为1,042 × 1,042像素,其中3,983张用于训练,2,005张用于验证,1,897张用于测试。语义分割支持25个不同的类别,每个数据样本提供了六种全景视图,覆盖视角为。为了模拟现实世界的挑战,DELIVER引入了四种恶劣天气条件和五种传感器故障情况,包括运动模糊、过曝和LiDAR抖动。MUSES数据集[10]是一个多模态基准,旨在在雨、雪、雾和夜间等具有挑战性的环境条件下进行密集语义感知研究。该数据集提供了涵盖19个语义类别的高质量2D全景标注,共包含2,500个样本。数据集分为1,500个训练样本、250个验证样本和750个测试样本,每个样本的分辨率为1,920 × 1,080像素。MUSES整合了来自三种模态的同步数据:帧相机(F)、事件相机(E)和LiDAR (L),为包括语义分割、全景分割和不确定性感知全景分割在内的任务提供了多样化的输入。
MCubeS 数据集[14]是一个多模态基准数据集,专门用于材料语义分割,重点关注在具有挑战性的户外场景中进行密集的每像素材料类别识别。该数据集包含500个标注图像集合,捕捉了42个场景,采用了四种不同的成像模态:RGB、近红外(NIR)以及由线性偏振角(AoLP)和线性偏振度(DoLP)表示的偏振特性。数据集分为训练集302张图像、验证集96张图像和测试集102张图像,每张图像分辨率为高质量的1920×1080像素。它标注了20个材料类别,包括沥青、混凝土、金属、织物、水和草类等。
多模态语义分割评估。作者对所提出的MLE-SAM方法进行了多模态语义分割的评估,与三个当前最先进的方法CMNeXt [13]、CWSAM [48] 和 SAM-LoRA进行比较。评估在三个基准数据集上进行。为了公平比较,采用了以下标准的 Backbone 架构:对于CMNeXt使用了MiT-BO作为 Backbone ,CWSAM和SAM-LoRA均使用ViT-B作为 Backbone ,而MLE-SAM则使用Hiera作为其 Backbone 。详细的实现细节见附录A。评估包括多种输入模态组合,以评估每个方法整合和利用多模态信息的能力。此外,还在DELIVER数据集上进行了定量分析,比较了在复杂环境条件(如阴天、雾天、运动模糊、过曝、欠曝、LiDAR抖动和事件低分辨率)下的可训练参数量和性能。这种系统性的评估提供了对各种场景下每种方法鲁棒性和效率的全面理解。
缺失模态和噪声条件下的语义分割评估。作者评估了使用所有可用模态训练但分别在不同组合的单个或部分模态下测试的语义分割模型的稳健性,使用DELIVER和MUSES数据集进行验证。分析了MLESAM在应用于不同模态的高斯噪声和随机噪声条件下的稳健性,并以平均交并比(mIoU)为主要评价指标。作者实现了一个噪声增强模块,用于模拟将高斯或随机噪声注入特定模态的不良条件。高斯噪声通过标准正态分布缩放50.0生成,而随机噪声在范围[-100, 100]内均匀采样。噪声直接添加到目标模态的图像数据中,并剪裁像素值至范围[0, 255],以确保有效性和防止像素强度出现溢出或下溢。
表1中的性能比较展示了所提出的MLE-SAM模型在DELIVER数据集上语义分割任务中的有效性,这是一种基于SAM的方法。在所有测试的模态组合中,MLE-SAM始终获得最高的mIoU分数,并显著优于其他竞争方法。对于单一模态RGB配置,MLE-SAM的mIoU为55.23%,分别超出CMNeXt和SAM-LoRA 3.94%和3.39%。利用RGB和Depth模态时,mIoU提高到63.57%,分别超出CMNeXt和SAM-LoRA 3.96%和3.32%。结合Event数据与RGB和Depth模态,mIoU上升至62.69%,分别超出CMNeXt和SAM-LoRA 2.85%和2.61%。加入所有四种模态后,MLE-SAM的表现最佳,mIoU达到64.08%,分别超越SAMLoRA和CMNeXt 4.54%和4.90%。这些结果突显了MLE-SAM有效整合多模态信息的能力,随着更多模态的加入,性能提升更为明显。值得注意的是,包括所有模态后,mIoU比仅使用RGB提升了8.85%,进一步强调了多模态融合在语义分割中的显著优势。
表2中的结果进一步验证了MLE-SAM在MUSES数据集上的优越性。该模型在所有模态组合中始终获得最高的mIoU分数,显著优于其他方法。对于单一模态的帧相机输入,MLE-SAM达到73.95%的mIoU,分别超越CMNeXt和SAMLoRA 30.58%和8.04%。采用帧相机和事件模态组合时,mIoU提高到74.73%,分别超过CMNeXt和SAM-LoRA 31.3470%和6.77%。添加LiDAR到帧相机进一步提升mIoU至75.42%,与CMNeXt相比改进了28.39%,与SAM-LoRA相比提高了5.08%。整合帧相机、事件和LiDAR模态实现74.8%的mIoU,保持MLE-SAM的优异性能,并分别相对于CMNeXt和SAM-LoRA提升了28.14%和4.72%。这些发现突显了MLE-SAM灵活利用真实世界多模态数据的能力,从而实现显著的分割性能提升。
两个数据集上的实验结果揭示了数据集特性与模型性能之间的重要关系。尽管 MLE-SAM 在两个数据集上都展示了强大的分割能力,但其在 MUSES 上的更高性能可归因于 SAM 预训练语料库与 MUSES 的现实世界性质之间的契合。由于基于 SAM 的模型是在多样化的现实世界图像上进行预训练的,因此它们本质上更适合像 MUSES 这样的数据集,该数据集捕捉到了复杂且真实的环境条件。相比之下,DELIVER 数据集的模拟性质限制了 SAM 预训练知识的充分利用。
综上所述,DELIVER、MUSES和MCubeS数据集上的实验结果一致证明了MLE-SAM在利用多模态数据进行语义分割方面的优越性能。该模型通过利用多种模态间的互补信息,在与最先进竞争对手相比时实现了显著提升。此外,观察到的性能趋势突显了数据集特性的重要性,真实世界数据集提供了更多的机会让基于SAM的方法充分利用其预训练优势。不同配置下的一致改进进一步证实了MLE-SAM的稳健性和扩展性,确立了其作为推进多模态分割任务的强大框架的地位。
DELIVER中不同模态组合的定量评估揭示了在各种条件下的可训练参数与性能之间的关系。如表4所示,在正常条件下(阴天、雾天和晴天),RGB-D的表现最佳,mIoU值分别为66.21%、63.89%和65.58%。结合RGB和Depth可以增强特征丰富性和鲁棒性。在不良条件下(夜间和雨天),RGB-D-E和RGB-DE-L表现更优,夜间条件下的mIoU值分别为60.82%和62.68%,雨天条件下的mIoU值分别为62.01%和62.71%。包括事件和LiDAR等稀疏模态能够在低光照和高反射环境中通过捕获高动态范围数据来弥补密集传感器的局限性。
图5展示了在各种模态下,在不良传感器条件下提取到的特征图。每种模态的表现受到其固有特性的影响,尤其是在具有挑战性的环境中更为明显。例如,RGB特征对光照变化敏感,在过曝或欠曝的情况下会遭受显著降解。深度和LiDAR特征则容易受到环境干扰的影响,如LiDAR抖动,这会在深度估计和空间测量中引入噪声。相比之下,结合多种模态可以增强系统的鲁棒性,通过发挥各自优势并减轻单一特征的局限性来提升整体表现。
例如,在过度曝光或欠曝光条件下,深度特征有助于捕获详细的物体信息(如树木和汽车),弥补了RGB在这些条件下的不足。类似地,在存在LiDAR抖动的情况下,结合RGB和事件特征可以改进纹理表示,保留诸如建筑结构等细节。这些结果表明,在恶劣条件下多模态融合在创建更具鲁棒性的特征表示方面的有效性。
图6展示了在传感器故障场景下选定语义类别的像素级特征的t-SNE可视化图像,突出了不同模态和故障条件下特征可分性的显著差异。图中的每个点对应一个像素,并通过其语义类别着色,以此来展示高维空间中特征的基础分布。在单一模态的场景中,传感器故障导致类别间出现了显著重叠,反映了特征表示的辨别能力减弱。相反,在多模态训练的情况下,特征可分性得到了显著改善,证明了多模态融合在构建稳健特征表示方面的有效性。值得注意的是,密集模态如RGB和深度图像表现出优于稀疏模态如事件和LiDAR的类别可分性,这强调了数据密度在恶劣条件下保持语义完整性的关键作用。这些结果强调了多模态方法在增强语义分割性能方面具有潜力,特别是在传感器退化环境中。
图7展示了DELIVER数据集上的语义分割结果,比较了各种方法和模态组合的性能差异。结果显示,将R-D-E-L模态组合集成显著提高了分割精度和完整性,相较于单模态方法效果更佳。例如,仅使用RGB模态的MLE-SAM在光照过曝和LiDAR抖动等挑战性条件下难以检测行人。相比之下,R-D-E-L组合能够准确分割小目标如行人。然而,CWSAM和SAM-LoRA与R-D-E-L组合的表现不佳,特别是在光照过曝条件下分割建筑物时效果较差。所有三种方法在运动模糊场景中识别小物体时都遇到困难。此外,CMNeXt在LiDAR抖动条件下无法捕捉到关键细节,如公交站和路灯。这些结果突显了MLE-SAM在利用综合多模态数据方面的优势,能够在传感器故障情况下实现一致且优越的分割精度。
表6对四种语义分割模型——CMNeXt、CWSAM、SAMLoRA和MLE-SAM——在三种模态组合下进行了全面评估:R-D-E、D-E-L和R-D-E-L。这些模型使用DELIVER数据集在不同的模态场景下进行了测试。CMNeXt的一个主要局限性在于其在训练过程中依赖RGB模态,这限制了其灵活性,相比之下,CWSAM、SAM-LoRA和MLE-SAM支持不依赖RGB进行训练。在所有评估的模型中,MLE-SAM在各种训练配置下表现最为出色。具体而言,在R-D-E训练设置下,MLE-SAM的平均mIoU为38.45%,分别优于SAM-LoRA和CWSAM 1.58%和10.2%。对于D-E-L配置,MLE-SAM达到34.02%,分别超出SAM-LoRA和CWSAM 2.91%和9.31%。同样,在R-D-E-L配置下,MLE-SAM获得最高的平均mIoU为34.90%,分别超出SAM-LoRA和CWSAM 0.77%和9.46%。这些结果突显了MLE-SAM在不同训练设置下的有效性与适应性。
测试过程中缺失模态的影响揭示了稠密模态和稀疏模态之间交互的关键见解。当在R-D-E上训练并在单一模态下进行测试时,MLE-SAM的表现显著变化,RGB-only测试得分为20.77%,Depth得分为48.59%,Event得分为4.68%。这突显了稠密数据,如RGB和Depth,在与稀疏Event模态相比时的稳定作用。在类似的D-E-L训练设置下,Depth测试得分达到56.02%,显著优于Event和LiDAR的4.07%和2.13%。对于R-D-E-L配置,MLE-SAM在稠密测试场景中表现出稳健的表现,例如Depth得分为50.28%,RGB-Depth得分为63.47%。然而,在仅使用稀疏模态的情况下,如Event和LiDAR,其得分显著降低,分别为0.74%和2.07%。这些发现突显了稠密模态在增强语义分割性能方面的鲁棒性。相比之下,尽管稀疏模态可以提供补充信息,但它们在独立使用时表现出有限的有效性。
这些性能模式可以归因于稠密和稀疏模态内在特性及其在训练过程中的整合。稠密模态如RGB和深度图提供了丰富的空间和结构信息,使模型能够学习到稳定且泛化的特征。相比之下,稀疏模态如事件和LiDAR捕捉到的是不规则且有限的数据,在特定上下文中适用,但作为单独输入时可靠性较低。在R-D-E-L设置下进行训练能够充分利用冗余和稠密数据的丰富性,在测试时对稠密子集表现出稳健的性能。相反,依赖稀疏数据进行测试会引入噪声,降低预测准确性。值得注意的是,在训练过程中排除稀疏模态可以缓解这些影响,这在RGBDepth测试表现优越的情况下得到了验证,其在R-D-E-L训练设置下的测试性能达到了63.47%,这表明虽然稀疏模态提供有用的补充特性,但在训练中过分依赖它们可能会妨碍模型的泛化能力。MLE-SAM的自适应融合机制有效地整合了稠密和稀疏模态,确保在多模态设置中具有优越的性能。
表8比较了四种在MUSES数据集中不同模态组合下训练和测试的模型性能。MLE-SAM始终优于其他模型,展示了其在不同模态组合下的鲁棒性。例如,在Frame-camera和LiDAR的数据下训练时,MLE-SAM达到53.09%,分别超过SAM-LoRA 7.82%,CWSAM 34.84%,以及CMNeXt 35.47%。这一趋势在F-E和F-L-E场景中也得以保持,分别提高了4.92%和4.99%,相对于SAM-LoRA。
然而,在测试过程中缺失模态会显著影响性能。例如,当模型在F-L-E数据上训练但在事件相机或激光雷达等稀疏模态上进行测试时,MLE-SAM的得分分别下降到1.5%和5.55%。相比之下,当在密集帧相机数据上进行测试时,MLE-SAM可以达到69.67%的性能。这些结果突显了密集数据在保持分割质量方面的重要作用,因为如帧相机等密集模态提供了必要的空间连续性和细节,而事件相机和激光雷达等稀疏模态缺乏这种丰富性。这些发现进一步证实了MLE-SAM自适应融合机制的优势。该机制有效地整合多模态输入,以缓解稀疏数据的限制,使其特别适合于实时场景中模态间断可用的情况。
表8评估了三种适应的SAM模型(即CWSAM、SAM-LoRA和MLE-SAM)在对四种模态施加高斯噪声和随机噪声时的表现。结果突显了噪声对密集模态和稀疏模态的不同影响,并展示了相比其他两种模型,MLE-SAM的稳健性。
分析结果显示,高斯噪声对密集模态(RGB、Depth)的影响大于稀疏模态(Event、LiDAR)。例如,在高斯噪声下,CWSAM的RGB mIoU下降至29.60%,而Depth为53.87%。稀疏模态受影响较小,Event和LiDAR分别保持了54.89%和54.79%的mIoU值。在随机噪声条件下,CWSAM的RGB进一步降至23.93%,Depth降至53.18%,而Event和LiDAR依旧表现出色,各自的mIoU值分别为54.76%和54.62%。这突显了由于其局部数据特性,稀疏模态对像素扰动具有较强的抗干扰能力。
MLE-SAM 在所有模态下都显示出了更出色的鲁棒性,优于CWSAM 和 SAM-LoRA。在高斯噪声条件下,MLE-SAM 的RGB mIoU 为57.00%,显著高于CWSAM 的29.60% 和SAM-LoRA 的53.83%。稀疏模态也从中受益,事件和激光雷达分别达到了63.90% 和63.87%,反映了相对于CWSAM 提高了9.01% 和9.08%,以及相对SAM-LoRA 提高了4.35% 和4.33%。在随机噪声条件下,MLE-SAM 的RGB mIoU 轻微下降到56.35%,仍然优于CWSAM 和SAM-LoRA。事件和激光雷达在两种噪声类型下的mIoU 值分别为63.89%,分别超过了CWSAM 和SAM-LoRA 9.13% 和9.27%。对比高斯噪声与随机噪声,随机噪声对密集模态引入了更高的变异度,使CWSAM 的RGB mIoU 从29.60% 下降到23.93%。稀疏模态的影响较小,在各种模型和噪声类型下都保持了稳定的mIoU值,突显了它们对全局干扰的鲁棒性。
总体而言,这些结果强调了需要针对不同模态的噪声鲁棒性策略。密集模态需要采用去噪技术,而稀疏模态则天然具有鲁棒性。在各种模型中,MLE-SAM 一贯优于 CWSAM 和 SAM-LoRA,验证了其在噪声环境下的多模态语义分割的有效性。
本文介绍了MLE-SAM,这是一种针对多模态语义分割特制的新颖SAM2架构改编版本。MLE-SAM融合了基于LoRA的适应性机制、选择性的特征加权机制以及双路径 Mask 预测策略。通过有效地融合密集和稀疏模态,MLE-SAM利用它们互补的优势实现精确的分割,并在多种条件和数据集上保持鲁棒性。
广泛的实验表明,MLE-SAM在各类数据集和模态组合中均能稳定地在平均交并比(mIoU)方面超过现有先进模型。特别值得一提的是,该模型在复杂场景下表现出色,包括噪声输入和缺失模态的情况下,突显了其多模态融合方法的优势。
密集模态提供了对于高分辨率分割至关重要的详细空间信息,而稀疏模态则增强了在不利或资源受限环境中的鲁棒性。
未来的研究可以优先通过高级预训练技术、抗噪模块设计以及自适应注意力机制来精炼多模态集成。开发动态融合策略以无缝平衡密集和稀疏模态,可以提高MLE-SAM在实际应用中的适应性和有效性。
[0]. Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts .