顶刊TPAMI 2025！一个模型搞定所有！多模态跟踪“全能王”UM-ODTrack横空出世

AI生成未来

发布于 2025-11-17 18:42:23

1520

作者：Yaozong Zheng等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2507.20177 代码链接：https://github.com/GXNU-ZhongLab/ODTrack

亮点直击

为视觉跟踪领域提供了首个通用的视频级模态感知跟踪模型。UM-ODTrack 仅需训练一次，即可使用相同的架构和参数实现多任务推理，包括 RGB-T/D/E 跟踪任务。
对于视频级关联，引入了两种时序令牌传播注意力机制，将目标的判别性特征压缩到一个令牌序列中。该令牌序列作为提示来指导未来帧的推理，从而避免了复杂的在线更新策略。
对于多模态感知，提出了两种新颖的门控感知器，能够自适应地学习跨模态的潜在表示，有助于我们模型的多任务统一训练和推理。

图 1.跟踪方法比较。(a) 基于稀疏采样和图像对匹配的离线图像级跟踪方法。(b) 基于视频序列采样和时序标记传播的在线视频级跟踪方法。(c) 基于单次训练和单任务推理（即一个模型对一个任务，一对一）的多模态跟踪方法 [62]、[64]-[66]。(d) 基于单次训练和多任务推理（即一个模型对多个任务，一对多）的通用模态感知跟踪模型。

总结速览

解决的问题

采样稀疏性： 传统跟踪器主要采用“图像对”（一个参考帧，一个搜索帧）的稀疏采样策略，无法充分利用视频中丰富的时序上下文信息，难以准确分析目标的动态运动状态。
关联局限性： 传统的特征匹配/融合方法侧重于目标的外观相似性，缺乏连续、密集的跨帧关联。现有方法即使引入多帧，其时空关系也仅限于选定的帧范围内，未能实现视频级别的信息关联。
模型专一性： 现有的多模态跟踪方法普遍采用“一个模型对应一个任务”（一对一）的学习范式。这导致需要为不同模态组合（如RGB-T, RGB-D）训练和维护多个独立模型，训练负担重，且模型间缺乏兼容性和泛化能力。

提出的方案

提出了 UM-ODTrack 的通用视频级别多模态感知跟踪模型，其核心创新点包括：

视频级别采样： 将模型输入从“图像对”扩展到“视频序列”级别，使模型能够从更全局的视角理解视频内容。
在线密集时序令牌学习： 将目标跟踪重新定义为令牌序列传播任务，设计了两种简单有效的在线密集时序令牌关联机制，以自回归的方式在视频流中传播目标的外观和运动轨迹信息。
模态可扩展感知： 设计了一种通用的模态感知跟踪流程，通过两个新颖的门控感知器，利用门控注意力机制自适应学习跨模态表征。
一次性训练范式： 采用一次性训练方案，将学习到的多种模态的潜在表征压缩到同一套模型参数中，实现一个模型支持多种跟踪任务（RGB, RGB-T, RGB-D, RGB-E）的推理。

应用的技术

视频序列建模： 将视频序列视为连续句子，借鉴语言建模思想进行上下文理解。
时序令牌关联注意力机制： 提出了串联时序令牌注意力和分离时序令牌注意力两种机制，用于在线传播和关联时序信息。
门控注意力机制： 在条件门控感知器和门控模态可扩展感知器中应用，以自适应地融合和学习跨模态特征。
一次性/统一多任务学习： 通过一次性训练，使单一模型学习共享的视觉-语义特征空间，同时尊重不同任务的异质性，实现多任务推理。

达到的效果

性能提升： 在七个可见光跟踪基准和五个多模态跟踪基准上进行了大量实验，结果表明UM-ODTrack达到了最新的SOTA性能。
信息利用优化： 提纯后的令牌序列可作为后续视频帧推理的时序提示，利用过去信息指导未来推理，实现了信息的有效传递和利用。
模型效率与泛化性： 一次性训练方案不仅减轻了训练负担，还通过共享参数和跨任务学习提升了模型的表征能力，实现了从“一对一”到“一对多”的范式转变，使模型更具通用性和灵活性。

方法

A. 架构设计

UM-ODTrack，通用的视频级模态感知框架它支持各种跟踪任务，包括 RGB、RGB+热成像、RGB+深度和 RGB+事件跟踪。

下图2和图3是用于视频级多模态跟踪的 UM-ODTrack 框架的概览。将整个视频建模为一个连续序列，并以自回归的方式逐帧解码目标实例的定位。首先，提出了一种新颖的视频序列采样策略，专门设计用于满足视频级模型的输入要求（原则1：视频级采样）。然后，提出了一种新颖的模态标记器，以共享编码的方式对不同的模态源进行标记化。随后，为了捕获视频序列中目标实例的时空轨迹信息，我们引入了两种简单而有效的时序令牌关联注意力机制（原则2：视频级关联）。此外，引入了两个强大的门控感知器来自适应地学习跨模态的通用视觉表示，从而提高模型在不同跟踪场景下的泛化能力（原则3：模态可扩展）。

基于上述建模技术，将获得一个通用的模态感知跟踪模型，该模型可以使用相同的模型架构和参数同时推理多个子跟踪任务。以下各节将给出详细描述。

B. 视频级多模态跟踪公式化

本文的重点在于构建一个通用的视频级多模态跟踪框架。为了全面理解 UM-ODTrack 框架，有必要描述视频级多模态跟踪的概念。首先，回顾一下先前主流的图像对匹配跟踪方法。给定一对视频帧，即一个参考帧和一个搜索帧，主流视觉跟踪器被公式化为

其中表示当前搜索帧的预测边界框坐标。如果是传统的卷积孪生跟踪器，它会经历三个阶段，即特征提取、特征融合和边界框预测。而如果是transformer 跟踪器，它仅包含一个骨干网络和一个预测头网络，其中骨干网络集成了特征提取和融合的过程。

一个transformer跟踪器接收一系列不重叠的图像块（每个图像块的分辨率为）作为输入。这意味着一个二维的参考-搜索图像对需要通过一个块嵌入层来生成多个一维图像令牌序列，其中是令牌维度，，且。然后，这些一维图像令牌被连接起来并加载到一个层的transformer编码器中，进行特征提取和关系建模。每个transformer层包含一个多头注意力机制和一个多层感知机。这里，我们将第个transformer层的前向过程公式化如下：

其中表示由第个transformer层生成的参考-搜索图像对的拼接令牌序列，而表示当前第个transformer层生成的令牌序列。

使用上述建模方法，我们可以构建一个简洁优雅的跟踪器来实现逐帧跟踪。然而，这种建模方法有两个明显的缺点：

所构建的跟踪器仅专注于帧内目标匹配，缺乏建立跨帧关联的能力，而这种能力对于跨视频流跟踪对象是必需的。
所构建的跟踪器仅限于单模态跟踪场景，由于领域特定知识的偏差，缺乏快速扩展到多模态跟踪的能力。因此，这些限制阻碍了视频级多模态跟踪算法的研究。

在这项工作中，旨在缓解这些挑战，并为通用视频级模态感知跟踪算法提出一种新的设计范式。首先，我们将跟踪框架的输入从图像对级别扩展到视频级别以进行时序建模。然后，引入一个时序令牌序列，旨在传播视频序列中目标实例的外观、时空位置和轨迹信息。形式上，我们将视频级跟踪公式化如下：

其中表示长度为的 RGB 参考帧序列，而表示长度为的 RGB 搜索帧序列。通过这样的设置，构建了一个视频级跟踪框架，它接收任意长度的视频片段来建模目标对象的时空轨迹关系。

此外，为了提高视频级跟踪器的通用模态感知能力，我们将其扩展到多模态跟踪领域。首先，将输入从单模态范围扩展到多模态范围。接着，使用一个包含 RGB 编码器和 D/T/E 编码器的共享通用模态编码器，分别用于提取和融合 RGB 视频片段和辅助视频片段。随后，设计了两个新颖的门控感知器来学习跨模态的通用潜在表示。定义如下：

其中表示来自辅助模态的长度为的参考帧序列，而表示来自辅助模态的长度为的搜索帧序列。是来自辅助模态的时序令牌。我们将在下一节更详细地描述所提出的核心模块。

C. 视频序列采样策略

大多数现有跟踪器通常在一个短时间间隔内（例如50、100或200帧间隔）对单模态图像对进行采样。然而，这种采样方法带来了一个潜在的限制，因为这些跟踪器无法捕捉被跟踪目标的长期运动变化，从而限制了跟踪算法在长期场景中的鲁棒性。同时，它们无法从多个模态的视角感知目标的实时状态。为了从长期视频序列中获取更丰富的目标实例的多模态时空轨迹信息，我们偏离了传统的短期图像对采样方法，并提出了一种新的视频序列采样策略。具体来说，在训练阶段，我们建立一个更大的采样间隔，并在该间隔内随机提取多个视频帧，以形成任何模态和任何长度的视频片段（, ）。尽管这种采样方法可能看起来简单，但它使我们能够近似整个视频序列的内容。这对于视频级多模态跟踪建模至关重要。

D. 模态标记器

直观地说，考虑到来自不同模态（即深度、热红外和事件）的输入帧的可变性，传统方法是为每种模态设计单独的标记器。这使得不同的输入帧能够被转换为具有相同序列格式的令牌向量。相反，考虑到不同模态间可能存在共享的语义信息，我们将深度、热红外和事件数据视为统一的视觉表示。设计了一个共享的模态标记器，以将来自不同模态的数据统一转换为相同的一维序列。对于包含深度、热红外和事件等多种模态信息的视觉输入，我们采用单个二维卷积层作为统一标记器。随后，利用一个基于transformer的通用模态编码器来处理这些令牌。

E. 门控感知器

由于基础视觉跟踪器的模态感知能力有限，一旦在RGB跟踪基准上进行训练，它就无法轻易适应复杂的多模态跟踪场景。因此，我们设计了两个简单而有效的模块，即条件门控和门控模态可扩展感知器，如图3所示，以自适应地学习通用的跨模态表示。

条件门控。为了在共享的通用模态编码器中实现多模态表示学习，我们在每个编码器层之间以残差方式添加了条件门控模块。在条件门控模块中，可见光特征和相应的辅助特征（即深度、热和事件）沿着通道维度进行跨模态对齐，以补充来自其他模态的丰富细节。然后，对齐后的多模态表示由条件门控模块进行门控，以促进模态间的交叉学习。

条件门控模块可以规范化为以下方程：

其中和表示在特定模态下从第个视频帧提取的可见光模态特征和辅助模态特征。是一个用于缩放维度的嵌入层。是一个门控网络。它根据模态源之间的质量动态控制多模态跟踪的表示学习，该质量通过一个两层感知机和一个门控激活函数进行评估。代表条件门控模块的输出特征。值得注意的是，最后一个条件门控网络层的学习参数被初始化为零，使其输出能够与基础视觉跟踪器的输出相匹配，从而有助于提高训练稳定性。

门控模态可扩展感知器。在执行通用模态编码器之后，可以获得一个可见光特征，一个辅助特征，一个可见光时序令牌序列，以及一个辅助模态时序令牌序列。来自不同模态的两个时序令牌，其特征空间分布反映了同一目标对象跨多个模态源的外观和运动轨迹信息。因此，我们设计了一种基于门控注意力机制的新型模态可扩展感知器，以进一步增强对多模态跟踪场景的感知。具体来说，学习到的多模态表示与两个时序模态令牌进行交叉注意力计算，以从多个视图构建通用的模态依赖关系。这种多模态关系可以表示为以下公式：

其中表示一个多模态交叉注意力层，以前一个输入作为查询，后一个作为键和值。表示一个多模态前馈网络层。是 GMP 模块中 UM-Attn 操作的输出特征。是 GMP 模块中门控操作的输出特征。代表 GMP 模块的输出特征。通过采用这种新颖的门控注意力机制，我们的 UM-ODTrack 能够自适应地将多模态信息聚合到一个共享的视觉-语义特征空间中，有效提高了我们跟踪器的模态感知能力，从而首次实现了真正通用的模态跟踪。

F. 时序令牌关联注意力机制

不采用复杂的视频transformer作为编码视频内容的基础框架，而是从一个新的视角进行设计，利用简单的 2D transformer架构，即 2D ViT。为了构建一个优雅的实例级帧间关联机制，必须扩展原始的 2D 注意力操作，以提取和整合视频级特征。在我们的方法中，我们基于压缩-传播的概念设计了两种时序令牌注意力机制，即拼接令牌注意力机制和分离令牌注意力机制，如下图4（左）所示。其核心设计在于向注意力操作中注入额外信息，例如更多的视频序列内容和时序令牌向量，使它们能够提取更丰富的目标实例的时空轨迹信息。

在图4(a)中，原始的注意力操作通常采用图像对作为输入，其中建模它们关系的过程可以表示为。在这种范式下，跟踪器只能在每个图像对内部进行独立交互，建立有限的时序相关性。在图4(b)中，所提出的拼接令牌注意力机制将输入扩展到前述的视频序列，从而能够对跨帧的时空关系进行密集建模。受语言通过拼接形成上下文特性的启发，我们同样应用拼接操作来为视频序列建立上下文。其公式可以表示为：

其中是第个视频帧的时序令牌序列。表示令牌间的拼接操作。, 和是拼接后特征令牌的时空线性投影。

另一方面，当执行多模态跟踪任务时，当前的时序令牌关联注意力机制也同样适用。具体来说，与可见光时序令牌类似，多模态时序令牌是一个用零初始化的向量，用于在多模态跟踪场景中提取目标实例的外观和时空定位信息。公式表示如下：

值得注意的是，本文为每个视频帧引入了一个时序令牌，旨在存储采样视频序列的目标轨迹信息。换句话说，我们将目标的当前时空轨迹信息压缩到一个令牌向量中，该向量用于传播到后续视频帧。

一旦目标信息被时序令牌提取，以自回归的方式将令牌向量从第帧传播到第帧，如图4（右）所示。首先，将第帧的时序令牌添加到第帧的空令牌上，得到更新后的第帧的内容令牌，随后将其作为输入传播到后续帧。形式上，可见光和多模态跟踪的传播过程为：

值得注意的是，我们为每个视频帧引入了一个时序令牌，旨在存储采样视频序列的目标轨迹信息。换句话说，我们将目标的当前时空轨迹信息压缩到一个令牌向量中，该向量用于传播到后续视频帧。

一旦目标信息被时序令牌提取，我们以自回归的方式将令牌向量从第帧传播到第帧，如图4（右）所示。首先，将第帧的时序令牌添加到第帧的空令牌上，得到更新后的第帧的内容令牌，随后将其作为输入传播到后续帧。形式上，可见光和多模态跟踪的传播过程为：

其中是第帧辅助模态视频帧的时序令牌序列。是第帧辅助模态视频帧的空令牌。

在这种新的设计范式中，可以使用时序令牌作为推断下一帧的提示，利用过去的信息来指导未来的推断。此外，我们的模型通过在线令牌传播隐式地传播目标实例的外观、定位和轨迹信息。这显著提高了视频级框架的跟踪性能。

另一方面，如图4(c)所示，所提出的分离令牌注意力机制将注意力操作分解为三个子过程：参考帧之间的自信息聚合、参考帧与搜索帧之间的跨信息聚合，以及时序令牌与视频序列之间的跨信息聚合。这种分解在一定程度上提高了模型的计算效率，同时令牌关联遵循上述流程。

与在线更新的讨论：大多数先前的跟踪算法结合在线更新方法来训练时空跟踪模型，例如添加额外的得分质量分支或 IoU 预测分支。它们通常需要复杂的优化过程和更新决策规则。与这些方法相比，我们通过利用令牌序列的在线迭代传播，避免了复杂的在线更新策略，使我们能够实现更高效的模型表示和计算。

G. 一次性训练与通用推理

预测头。对于预测头网络的设计，采用传统的分类头和边界框回归头来实现期望的结果。分别通过三个子卷积网络获得预测的分类得分图、边界框尺寸和偏移量尺寸。

一次性训练。如果一个单一的神经网络模型能够同时跨多个任务进行推理，它将呈现出显著的优势。这不仅减少了需要为每个领域手工设计具有适当归纳偏置的模型，还增加了可用训练数据的数量和多样性。

对于 RGB 跟踪任务，本文使用包含 LaSOT, GOT-10k, TrackingNet 和 COCO 的训练数据集来训练我们的基础视频级跟踪模型。在输入数据方面，我们将包含三个 192 × 192 像素参考帧和两个 384 × 384 像素搜索帧的视频序列作为模型的输入。

对于多模态跟踪任务，与在单个下游数据集上独立训练的跟踪算法，如[62], [64], [66], [74]相比，我们的目标是同时联合训练多个跟踪任务（即 RGB-T 跟踪、RGB-D 跟踪和 RGB-E 跟踪）。我们在联合的热红外（即 LasHeR，对齐了 RGB 和红外数据）、深度（即 DepthTrack，对齐了 RGB 和深度数据）和事件（即 VisEvent，对齐了 RGB 和事件数据）数据集上，以一次性训练的方式训练我们的通用模态感知跟踪模型，并使用相同的损失函数监督其预测的边界框。

具体来说，采用焦点损失作为分类损失，并采用 L1 损失和 GIoU 损失作为回归损失。总损失可以公式化为：

其中和是正则化参数。由于我们使用视频片段进行建模，任务损失是针对每个视频帧独立计算的，并且最终损失是在搜索帧的长度上取平均值。

通用推理。 算法1总结了我们模型的推理过程。对于 RGB 跟踪，我们遵循与其他transformer跟踪器相同的跟踪流程。得益于我们的一次性训练方案和门控模态可扩展感知器模块，对于 RGB-D、RGB-T 和 RGB-E 跟踪任务，我们使用同一套模型参数无缝地执行任何跟踪任务的推理，而无需额外的多次微调技术。在输入数据方面，为了与训练设置保持一致，我们在推理阶段将三个等间隔的参考帧纳入我们的跟踪器。同时，搜索帧和时序令牌向量被逐帧输入。

实验

A. 实现细节

本文使用 ViT-Base 模型作为视觉编码器，其参数使用 MAE 预训练参数进行初始化。采用 AdamW 来优化网络参数，骨干网络的初始学习率为，其余部分为，并设置权重衰减为。在每个周期中随机采样 60,000 个图像对。对于 RGB 跟踪任务，我们设置训练周期为 300 个周期。学习率在 240 个周期后下降为原来的十分之一。对于多模态跟踪任务，我们设置训练周期为 15 个周期。学习率在 10 个周期后下降为原来的十分之一。该模型在配备两块 80GB Tesla A100 GPU 的服务器上运行，并设置批处理大小为 8。

B. 与 SOTA 的比较

在七个可见光基准（包括 LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020, TNL2K 和 OTB100）和五个多模态跟踪基准（包括 LasHeR, RGBT234, DepthTrack, VOT-RGBD2022 和 VisEvent）上将我们的 ODTrack 和 UM-ODTrack 与最先进的跟踪器进行了比较。我们的 ODTrack 和 UM-ODTrack 在这些数据集上展示了卓越的性能。

GOT10K。GOT10K 是一个大规模跟踪数据集，包含超过 10,000 个视频序列。GOT10K 基准提出了一个协议，要求跟踪器仅使用其训练集进行训练。我们遵循该协议来训练我们的框架。结果记录在表 I 中。在先前的方法中，未采用视频级采样策略的 ARTrack384 在 AO（平均重叠率）、SR0.5 和 SR0.75（阈值为 0.5 和 0.75 时的成功率）指标上分别达到了 SOTA 性能。受益于提出的新视频级采样策略，我们的 ODTrack384 取得了新的最先进水平，在 AO、SR0.5 和 SR0.75 指标上分别达到了 77.0%、87.9% 和 75.1%。结果表明，我们 ODTrack 的一个优势来自于旨在释放模型潜力的视频级采样策略。

LaSOT。LaSOT 是一个大规模长期跟踪基准，包含 1120 个训练序列和 280 个测试序列。如表 I 所示，可以看到我们的 ODTrack384 通过有趣的时序令牌注意力机制取得了良好的跟踪结果。与最新的 ARTrack 性能相比，我们的 ODTrack384 在 AUC、P Norm 和 P 分数方面分别实现了 0.6%、1.5% 和 1.5% 的提升。结果表明，跟踪器学习到的具有目标关联依赖关系的时空特征可以提供可靠的目标定位。此外，由于我们的时序令牌旨在关联目标实例以提高在多种跟踪挑战（即快速运动、背景干扰、视角变化和尺度变化等）下的鲁棒性和准确性。因此，如图 5 所示，展示了 LaSOT 数据集的属性评估，以说明我们的令牌关联机制如何帮助跟踪器学习关于目标实例的时空轨迹信息，显著增强长期跟踪场景中的目标定位。

TrackingNet。TrackingNet 是一个大规模短期数据集，提供了一个包含 511 个视频序列的测试集。如下表 I 报告，通过实现目标实例的跨帧关联，ODTrack384 取得了 85.1% 的成功分数（AUC）、90.1% 的归一化精度分数（P Norm）和 84.9% 的精度分数（P），分别优于先前没有令牌关联的高性能跟踪器 SeqTrack 1.2%、1.3% 和 1.3%。同时，与最近没有时序令牌关联的视频级跟踪器 VideoTrack 相比，ODTrack 在 AUC、P Norm 和 P 指标上分别优于 1.3%、1.4% 和 1.8%。这表明我们的时序令牌可以有效地跨搜索帧关联目标对象，并且这种新颖的关联方式可以增强我们 ODTrack 在多个跟踪场景中的泛化能力。

LaSOText。LaSOText 是 LaSOT 的扩展版本，包含 150 个长期视频序列。如表 I 报告，我们的方法取得了良好的跟踪结果，优于大多数比较的跟踪器。例如，我们的跟踪器取得了 52.4% 的 AUC、63.9% 的 P Norm 分数和 60.1% 的 P 分数，分别优于 ARTrack 0.5%、1.9% 和 1.6%。此外，我们的 ODTrack 在成功分数上也优于基于图像对匹配的先进跟踪器 OSTrack 1.9%。结果符合我们的预期，即视频级建模在复杂的长期跟踪场景中具有更稳定的目标定位能力。

VOT2020。VOT2020 包含 60 个具有挑战性的序列，并使用二进制分割掩码作为真实标签。我们使用 Alpha-Refine作为 ODTrack 的后处理网络来预测分割掩码。期望平均重叠率（EAO）指标用于评估所提出的跟踪器和其他先进跟踪器。如表 III 所示，我们的 ODTrack384 和 -L384 在掩码评估上取得了最佳结果，EAO 分别为 58.1% 和 60.5%。在 EAO 指标上，与未探索时序关系的跟踪器（即 SBT 和 Ocean+）相比，ODTrack 分别优于 6.6% 和 9%。这些结果表明，通过注入时序令牌注意力，我们的 ODTrack 在复杂跟踪场景中具有鲁棒性。

TNL2K 和 OTB100。在 TNL2K 和 OTB100 基准上评估了我们的跟踪器。它们分别包含 700 和 100 个视频序列。表 II 中的结果显示，ODTrack384 和 -L384 在 TNL2K 和 OTB100 基准上取得了最佳性能。例如，我们的 ODTrack384 在 TNL2K 和 OTB100 数据集上分别获得了 60.9% 和 72.3% 的 AUC 分数。在 TNL2K 数据集上，与 ARTrack 相比，ODTrack 优于其 1.1%。同时，与非自回归跟踪器 Mixformer 相比，我们的 ODTrack 在 OTB100 数据集上的 AUC 分数高出 2.3%。可以观察到，通过采用有趣的自回归建模方法来捕获时序上下文，我们的 ODTrack 能够降低模型复杂性并提高性能。

DepthTrack。DepthTrack包含 150 个训练和 50 个测试 RGB-D 长期视频序列。如下表 IV 所示，我们在其上将我们的模型与现有的 SOTA RGB-D 跟踪器进行了比较。在相同的图像分辨率设置下，我们的 UM-ODTrack256 在跟踪精度（Pr）、召回率（Re）和 F-score 上分别优于 ViPT 1.1%、2.6% 和 1.8%。此外，由于提出的高效门控注意力机制，我们的 UM-ODTrack384 在 RGB-D 跟踪领域取得了 SOTA 性能。值得注意的是，当输入尺寸从 256 增加到 384 时，UM-ODTrack 在性能上取得了大幅提升。这表明我们结合大输入分辨率的时序关联方法在多模态长期跟踪场景中尤为重要。

VOT-RGBD2022。VOT-RGBD2022是一个短期跟踪数据集，包含 127 个 RGB-D 视频序列。如下表 V 报告，与大多数其他跟踪算法相比，我们的跟踪器取得了新的最先进结果。具体来说，我们的 UM-ODTrack256 在 EAO、准确性和鲁棒性指标上分别获得了 78.0%、81.4% 和 94.8% 的分数。与最新的统一跟踪器 Un-Track 相比，我们的 UM-ODTrack256 在期望平均重叠率（EAO）和鲁棒性分数上分别实现了 5.9% 和 7.9% 的提升。这表明我们的统一建模技术对于通用特征学习更有效，并且可以为每种模态（即深度模态）提供合适且稳定的特征空间。

LasHeR。LasHeR 是一个大规模 RGB-T 跟踪数据集，包含 245 个短期测试视频序列。结果报告在下图 7 中，我们的 UM-ODTrack 取得了令人惊讶的结果，显著优于先前的 SOTA RGB-T 跟踪算法，在成功图和精度图上分别超过第二名 4.5% 和 6.3%。这些结果符合我们的预期，即基于门控注意力机制的特征学习可以自适应地提取和融合不同模态的特征，以提高多模态跟踪性能。同时，为了验证我们的门控感知器能够有效解决包括遮挡（NO）、部分遮挡（PO）、完全遮挡（TO）、低光照（LI）、低分辨率（LR）、形变（DEF）、背景干扰（BC）、运动模糊（MB）、热交叉（TC）、相机移动（CM）、快速运动（FM）、尺度变化（SV）、透明遮挡（HO）、高光照（HI）、突然光照变化（AIV）、相似外观（SA）、纵横比变化（ARC）、出视野（OV）和帧丢失（FL）在内的多种挑战，我们展示了 LasHeR 数据集的属性评估结果。如图 6 所示，我们的 UM-ODTrack 在每个属性上都表现良好。因此，可以表明我们带有门控感知器的视频级多模态建模方案能够有效地统一和融合多模态特征，从而使我们的跟踪器能够很好地解决复杂的跟踪场景。

RGBT234。RGBT234 包含 234 个 RGB-T 跟踪视频，约 116.6K 个图像对。如下图6 所示，UM-ODTrack256 在 SR 和 PR 指标上分别获得了 69.2% 和 91.5% 的分数。与高性能 RGB-T 专家跟踪器 BAT 相比，我们的方法取得了良好的跟踪结果，在成功图和精度图上分别优于 5.1% 和 4.7%。这意味着我们的 GMP 模块可以有效地聚合来自热红外模态的目标信息，实现鲁棒的多模态跟踪。

VisEvent。VisEvent 是最大的 RGB-E 跟踪基准，包含 320 个测试视频。比较结果如图 8 所示。我们的 UM-ODTrack384 取得了新的 SOTA 跟踪结果，成功分数和精度分数分别为 62.4% 和 81.3%。可以看出，我们配备门控模态可扩展感知器（GMP）模块的 UM-ODTrack 在事件场景中也实现了精确跟踪。这与我们的直觉一致，即 GMP 模块可以轻松扩展到不同的模态跟踪场景，并有效改善多模态特征的表示。

C. 消融研究

令牌关联的有效性。为了研究等式 11 中令牌关联的效果，我们在表 VII 中进行了是否传播时序令牌的实验。w/o Token 表示采用视频级采样策略但没有令牌关联的实验。从第二行和第三行可以观察到，缺少令牌关联机制导致 AUC 分数下降 1.2%。这一结果表明令牌关联在跨帧目标关联中起着至关重要的作用。此外，我们在表 VII 中进行实验，以验证视频级跟踪框架中提出的两种令牌关联方法的有效性。我们可以观察到，分离和拼接方法都实现了显著的性能提升，其中拼接方法显示出稍好的结果。这证明了两种注意力机制的有效性。

搜索视频片段的长度。如下表 VIII 所示，消融了搜索视频序列长度对跟踪性能的影响。当视频片段长度从 2 增加到 3 时，AUC 指标提高了 0.3%。然而，序列长度的持续增加并未带来性能提升，表明过长的搜索视频片段会给模型带来学习负担。因此，我们应选择适当的搜索视频片段长度。此外，为了评估序列长度对多模态跟踪性能的影响，在 LasHeR, DepthTrack和 VisEvent 基准上进行了对比实验，如表 XVI 所示。视频序列长度的选择对于利用时序信息至关重要。当序列长度从 2 增加到 3 时，我们的跟踪器在 LasHeR, DepthTrack 和 VisEvent 基准上的 SR 和 F-score 分别提高了 0.7%, 0.2% 和 1.6%。这些增益来自于通过多帧信息有效建模目标外观变化和运动轨迹。然而，当序列长度超过 3 时，由于跨模态时序噪声的积累，性能趋于稳定或略有下降。这证实了适当选择的序列长度可以提供互补信息，而过长的序列更可能引入冗余或有噪声的上下文信号。因此，我们的 UM-ODTrack 采用序列长度 3 作为最佳设置，以在合适的时间跨度内捕获上下文信息。

采样范围。为了验证采样范围对算法性能的影响，在下表 IX 中对视频帧的采样范围进行了实验。当采样范围从 200 扩大到 1200 时，AUC 指标的性能有显著提高，表明视频级框架能够从更大的采样范围学习目标轨迹信息。

门控感知器和门控激活函数的有效性。我们进行实验以验证在通用模态感知跟踪框架下提出的两个组件，即条件门控和门控模态可扩展感知器（GMP）的有效性，如下表 X 所示。基线方法指的是 ODTrack 的双流版本。通过将条件门控模块添加到基线中，我们的跟踪器在三个下游跟踪数据集上的性能得到了改善。例如，配备条件门控的跟踪器在 DepthTrack 基准上的 F-score 指标实现了 1.3% 的提升。此外，通过将 GMP 纳入我们的模型，其性能得到进一步改善。这证明了我们提出的两个门控模块的有效性。此外，为了研究门控激活函数的效果，在表 XIII 中使用了不同的门控激活函数进行实验。与 ReLU 和 sigmoid 相比，tanh 激活函数表现最佳。这一结果表明，在我们的门控感知器中，tanh 门控函数更适合学习和表示通用的多模态跟踪任务，可能提供更好的泛化能力。

条件门控和 GMP 的层数。分别比较了条件门控和 GMP 的层数对模型的影响。实验结果记录在表 XI 和表 XII 中。对于条件门控，随着层数的增加，我们跟踪器的性能相应提高。这意味着在通用模态编码器中集成更多层有助于学习多模态表示。另一方面，当在 GMP 模块中使用三层或六层时，我们的 UM-ODTrack 取得了良好的跟踪结果。为了平衡速度和性能，我们选择使用三层配置。

多模态线索的重要性。为了验证在视觉跟踪中融合 RGB 帧与其他模态帧的有效性，我们报告了 UM-ODTrack 上仅使用 RGB 数据和双模态数据的跟踪结果。如表 XIV (#1 和 #5) 所示，当仅使用 RGB 帧时，我们的跟踪器在三个下游基准上表现出显著的性能下降。例如，在 LasHeR 数据集中，SR 和 PR 指标分别下降了 6.3% 和 7.2%，表明多模态线索的注入（或多模态融合）对于多模态跟踪是显著有效且至关重要的。

共享模态标记器的重要性。我们比较了共享和非共享标记器对多模态跟踪性能的影响。在实验中，我们使用共享和非共享标记器对多模态数据进行编码，并将编码后的数据输入跟踪模型进行训练和推理。共享标记器是指使用统一的标记器对所有模态的数据进行编码，而非共享标记器则涉及对每种模态使用不同的标记器。如表 XIV (#2 和 #5) 所示，我们发现共享标记器的跟踪性能更优。这表明共享标记器可以更有效地捕捉多模态数据之间的相关性，从而提升我们跟踪器的整体性能。

完全微调 vs. 适配器/提示微调。如图 12 所示，探索了使用不同训练策略（例如适配器微调和完全微调）来训练我们模型的实验。实验结果记录在表 XIV (#3 和 #5) 中。可以观察到，适配器微调和完全微调策略都取得了良好的性能提升，其中完全微调显示出稍好的结果。理论上，具有较少学习参数的适配器微调可以节省更多 GPU 资源。然而，在实践中，由于其他模型参数在训练期间保留了梯度，其训练资源并未显著减少，这与完全微调方案相当。因此，我们选择具有更多学习参数的完全微调作为我们的训练策略。

多任务一次性训练 vs. 单任务独立训练。为了评估多任务统一（一次性）训练对我们最终模型的好处，我们为三个子跟踪任务独立训练了专家模型，如表 XIV 所示。#4 和 #5 的比较结果表明，我们的一次性训练方案带来了显著的性能提升。例如，仅在 DepthTrack 数据集上训练的模型达到了 67.8% 的 F-score，而在 DepthTrack, LasHeR 和 VisEvent 上联合训练的模型则达到了 69.3% 的更高 F-score，提升了 1.5%。将此改进归因于每个模态跟踪任务可用训练数据数量和多样性的增加，以及设计的门控感知器在聚合多模态特征方面的有效性。这些因素共同增强了我们统一多模态跟踪模型在各种跟踪场景中的鲁棒性和泛化能力。

模态权重比率。我们进行了一项比较研究，如表 XV 所示，以评估不同模态权重对模型性能的影响。如结果所示，跟踪器的变体在不同权重方案下表现一致良好。例如，在权重配置为 depth: infrared: event = 2:1:1 时，我们的模型在 DepthTrack, LasHeR 和 VisEvent 数据集上分别实现了 69.1%, 60.4% 和 61.7% 的 F-score 和 SR 值。这些发现表明，我们的方法对模态的具体权重不高度敏感。因此，等权重方案（depth: infrared: event = 1:1:1）可以有效地平衡每个模态的贡献，并作为我们模型的一个鲁棒的默认配置。

D. 定性分析

速度、FLOPs 和参数量分析。在模型参数量、FLOPs 和推理速度方面进行了对比实验，如表 XVII 所示。在相同的测试机器（即 2080Ti）上，ODTrack 与最新的跟踪器 SeqTrack 相比获得了更快的推理速度。我们的跟踪器运行速度为 32 fps。

可视化。对于 RGB 跟踪任务，为了直观展示我们方法的有效性，特别是在包含相似干扰物的复杂场景中，在 LaSOT 上可视化了ODTrack 和三个先进跟踪器的跟踪结果。如图 9 所示，由于其能够密集传播目标的轨迹信息，我们的跟踪器在这些序列上远远优于最新的跟踪器 SeqTrack。

对于多模态跟踪任务，我们分别在 LasHeR, DepthTrack 和 VisEvent 数据集上可视化了我们的 UM-ODTrack 和其他 SOTA 跟踪器的多模态跟踪结果，如图 11 所示。受益于门控感知器对任意模态的通用感知能力，与其他多模态跟踪器相比，我们的 UM-ODTrack 能够在复杂序列中准确定位目标。同时，我们比较了带有和不带门控模态可扩展感知器（GMP）的特征表示。如图 13 所示，在没有 GMP 模块的情况下，模型缺乏捕捉模态间相关性的能力，导致学习到的表示常常关注与目标相似的干扰物。相比之下，当配备包含基于注意力的门控机制的 GMP 模块时，本文的跟踪器在复杂的多模态跟踪场景中有效抑制了此类干扰，使模型能够更准确地聚焦于目标对象。

此外，可视化了时序令牌注意力操作的注意力图，如图 10 所示。我们可以观察到时序令牌持续传播并关注物体的运动轨迹信息，这有助于我们的跟踪器准确定位目标实例。

结论

本工作探索了一个有趣的视频级视觉目标跟踪框架，称为 ODTrack。将视觉跟踪重新定义为一个令牌传播任务，以自回归的方式密集关联跨视频帧的上下文关系。此外，为了从单模态感知扩展到多模态感知，提出了 UM-ODTrack，一个通用的视频级模态感知视觉跟踪框架，通过设计门控注意力机制有效聚合目标实例的多模态时序信息。具体来说，设计了一种视频序列采样策略和两种时序令牌传播注意力机制，使得所提出的框架能够简化视频级时空建模并避免复杂的在线更新策略。此外，提出了两个门控模态可扩展感知器来聚合来自各种模态的目标时空信息。最后，本模型可以通过一次性训练方案，使用同一套模型参数同时推理不同的多模态跟踪任务。大量实验表明，UM-ODTrack 在七个可见光跟踪和五个多模态跟踪基准上取得了优异的结果。期望 ODTrack 和 UM-ODTrack 能成为通用视频级模态感知跟踪的强大基线，激发可见光跟踪和多模态跟踪领域的进一步研究。