
在自动驾驶和智能监控等场景中,多目标跟踪(MOT)技术需要应对现实世界中层出不穷的新物体类别。传统方法依赖预定义类别,面对“无人机配件”“新型宠物”等未知目标时往往失效。上海人工智能实验室团队提出的OVTR(Open-Vocabulary Multiple Object Tracking with Transformer),通过端到端架构与视觉-语言模型结合,首次实现了无需后处理、支持动态类别扩展的开放词汇跟踪,成为该领域的重要突破。
论文链接:https://arxiv.org/abs/2503.10616 代码链接:https://github.com/jinyanglii/OVTR

多目标跟踪(MOT)作为视频感知的核心技术,在自动驾驶、智能监控等领域广泛应用。传统方法(如YOLO系列、SORT算法)基于闭合词汇(closed-vocabulary),仅能跟踪训练集中预定义的类别(如“人”“车”),但现实场景中常出现训练时未见过的新类别(如“临时路障”“新型无人机”),传统模型在此类情况下易失效。例如,自动驾驶需动态识别突发障碍物,零售场景需实时追踪新上架商品,这些需求暴露了传统方法的局限性:泛化能力不足、场景适应性差。
针对上述问题,OVTR(Open-Vocabulary Multiple Object Tracking with Transformer)首次实现端到端的开放词汇跟踪,核心突破包括:
传统方法依赖“检测-关联”两阶段流程,需手动设计相似性度量(如IoU或外观特征匹配)。OVTR基于Transformer构建端到端框架,核心创新在于:

针对遮挡与复杂运动场景,OVTR提出:
OVTR 在多个基准数据集上表现出色,验证了其技术优势。在TAO数据集上的实验表明,OVTR在TETA指标上优于现有方法,验证集和测试集上分别超过OVTrack 12.9%和12.4%。此外,在KITTI迁移实验中,OVTR在MOTA指标上也超过了OVTrack 2.9%。

团队已公开代码及预训练模型(GitHub链接),支持自定义类别扩展。开发者可通过简单指令(如添加“工地警示牌”)调整模型,无需标注数据。
OVTR为开放世界感知提供了新范式,但其在极端遮挡和小目标跟踪上仍有优化空间。未来方向包括:
结语 OVTR通过端到端架构与开放词汇能力的结合,打破了传统MOT的类别限制。随着视觉-语言模型的进化,这类技术将推动机器真正“理解”动态世界,为智能系统赋予人类般的场景适应力。正如研究者所言:“未来的跟踪模型不应局限于看见,而应学会认知。”