拿下Oral！CVPR 2026 SEATrack：高效的多模态跟踪器

Amusi

发布于 2026-04-22 08:21:49

790

文章被收录于专栏：CVerCVer

当很多统一多模态跟踪方法还在靠“加模块、堆参数”换性能时，SEATrack换了一个思路：问题也许不只在“怎么融合”，更在“融合之前，两种模态的匹配响应到底有没有对齐”。 SEATrack是一个简单高效的双流多模态跟踪器，它用“对齐先于融合”的设计，在RGB-T、RGB-D和RGB-E五个基准上取得了很强的综合表现，同时把可学习参数控制在 0.6M，推理速度做到 63.5 FPS。

一句话概括

SEATrack的核心不是把跨模态融合做得更重，而是先解决一个长期被忽视的问题：不同模态之间的目标匹配响应并不一致。围绕这一点，它提出 AMG-LoRA 做跨模态注意力对齐，再用 HMoE 做高效全局融合，从而在性能和效率之间找到更优平衡。

背景：多模态跟踪到底难在哪？

仅依赖RGB的目标跟踪在多数场景下已经能够取得较好效果，但在光照突变、快速运动、遮挡等复杂条件下，单一模态的感知能力仍然容易受限。为此，热红外、深度、事件等异构模态被引入，以提供与RGB互补的目标信息。近年来，基于参数高效微调（PEFT）的统一多模态跟踪方法逐渐成为研究热点，因为它试图在继承预训练RGB跟踪器能力的同时，以较低代价适配多模态场景。

不过，这条路线也暴露出两个越来越明显的问题。其一，部分SOTA方法为了追求多任务性能提升，不断增加可训练参数量和计算开销，逐步偏离PEFT原本强调的资源友好与效率优势。其二，现有研究大多将重点放在跨模态信息融合上，希望通过更复杂的交互机制提升表征能力，但在实际效果上，这类思路仍然面临表达能力与计算效率之间的权衡：基于注意力的全局交互虽然表达充分，却往往代价较高；而轻量级局部融合虽然更加高效，却缺乏足够的全局建模能力。

核心洞察：问题不只在“怎么融合”，更在“匹配是否一致”

SEATrack的关键见解在于，多模态跟踪首先是一个目标匹配问题，然后才是一个跨模态融合问题。可以把目标跟踪理解为：拿着一张目标照片，在当前场景中持续搜索同一个对象。在这个过程中，模板与搜索区域之间的正确匹配始终是跟踪的核心步骤。在现代多模态跟踪模型中，这一匹配通常通过ViT的自注意力层实现。

作者通过可视化结果指出，现有多模态方法真正被低估的问题，恰恰出现在这一步。对于单流方法，异构模态在早期就被混合输入，容易导致匹配过程中的注意力漂移；对于双流方法，虽然保留了模态独立性，但由于模态域偏差以及不同场景下模态可靠性的动态变化，两条分支往往会产生彼此不一致的注意力图。注意到多模态输入具有良好的时空一致性，如果不同模态对“目标到底在哪”这件事本身就没有达成一致，那么这种空间上的感知冲突会进一步干扰后续的跨模态融合。

图1. SEATrack与现有单流/双流多模态跟踪框架对比。

基于这一观察，作者提出了 AMG-LoRA。它一方面引入LoRA帮助注意力层中的预训练知识适应多模态域，另一方面通过简单有效的自适应互引导机制，让一种模态的匹配信息去动态引导另一种模态，不是简单求平均，也不是强行拉齐，而是根据场景中不同模态的可靠性，自适应地做双向修正。

第二个亮点：用MoE做全局融合，但不再付出Attention那样的高代价

在跨模态融合阶段，SEATrack没有继续沿用计算代价较高的Attention式方案，而是提出了 HMoE 作为高效的全局关系建模器。其通过层次化软路由的方式完成跨模态全局交互：它先在 sub-token 层面完成细粒度混合，再在 token 层面完成聚合输出。也正因如此，HMoE更像是一种面向跨模态融合的高效 token mixer，而不是传统意义上的MoE替代品。

图2. HMoE的层次化融合结构示意。

HMoE的两阶段融合过程，其计算复杂度主导项为。由于每个专家的头数量远小于序列长，其计算效率优于复杂度为的Attention。实验表明，HMoE相较于Attention式融合，在性能非常接近的情况下，FPS提升约35%。

图3. SEATrack与现有全局/局部融合策略的性能-效率对比。

更进一步，作者还验证了层次化融合设计的必要性。可以看到，当引入层次化融合后（），多任务性能都得到提升。

图4. 不同专家头配置下的性能对比。

实验结果：不靠大参数，也能把结果做上去

从主表结果看，SEATrack在五个基准上都拿出了很有说服力的综合表现：

LasHeR：71.6 PR、67.5 NPR、57.3 SR
RGBT234：87.8 MPR 、63.9 SR
DepthTrack：62.9 PR、63.5 RE、63.2 F-score
VOT-RGBD2022：73.6 EAO、82.1 Accuracy、88.4 Robustness
VisEvent：77.1 PR、60.3 SR

更重要的是，这些结果建立在仅 0.6M 可学习参数和 63.5 FPS 的前提下。

图5. SEATrack在多个多模态跟踪基准上的综合性能表现。

更让人眼前一亮的是，它揭示了“对齐”的价值

消融实验非常说明问题。仅加入 AMG-LoRA，在只增加 0.14M 参数的情况下，就能相对基线带来 LasHeR 上18.3%的PR提升、DepthTrack上7.2%的PR提升，以及 VisEvent 上6.1%的PR提升。值得注意的是，在HMoE的基础上引入AMG-LoRA同样取得了显著的多任务性能提升，这进一步验证了对齐之于融合的重要性。

图6. AMG-LoRA与HMoE的消融实验结果。

进一步看挑战属性下的性能对比，AMG-LoRA在相似目标、背景干扰、快速运动等复杂场景下都有稳定增益，甚至在帧缺失这类看似违背设计假设的场景中，也依然优于普通LoRA。

图7. AMG-LoRA与LoRA在不同挑战属性下的性能对比。

可视化结果显示，经过对齐后的注意力图更加干净、稳定，预测也更不容易被相似外观目标带偏，呈现出一种很强的“去噪”能力。

图8. AGM-LoRA（右）与LoRA（左）在RGB分支帧丢失场景下的可视化对比。

图9. AMG-LoRA呈现出的自适应对齐行为。

研究价值：多模态跟踪，也许不该再只卷“融合”了

SEATrack传递出的一个重要信号是：在多模态跟踪中，跨模态对齐可能是一个长期被低估的关键环节。过去，许多方法将主要精力放在“如何设计更强的融合模块”上；而SEATrack表明，若不同模态在目标匹配阶段尚未形成一致响应，后续融合的收益也会受到限制。相比继续堆叠更重的交互结构，先提升跨模态空间感知的一致性，再在此基础上进行高效融合，或许才是打破性能-效率难题的更优路径。进一步看，“先对齐感知、后信息融合”的思路，也为其他视觉多模态感知任务提供了一个值得关注的视角。