
当今视觉追踪领域,一项全新任务正引发学术界和工业界的关注。这项被称为「无人机对抗无人机」的挑战将追踪技术的难度推向了全新高度。
近期,来自香港科技大学(广州)、上海交通大学、中山大学、中国科学院信息工程研究所和云从科技的联合团队发布了题为《How Far are Modern Trackers from UAV-Anti-UAV? A Million-Scale Benchmark and New Baseline》的突破性研究。
这项研究不仅仅提出了新的任务范式,更是构建了一个百万级规模的基准数据集,并对现有50种先进追踪器进行了全面测评,结果令人震惊。

论文地址:https://arxiv.org/pdf/2512.07385 项目地址:https://github.com/983632847/Awesome-Multimodal-Object-Tracking
当前的无人机相关追踪研究主要分为两种模式。第一种是无人机追踪地面目标,如车辆或行人,此时追踪平台动态但目标相对静止。
另一种是地面摄像头追踪空中无人机,目标动态而观测平台静止。
这两种模式都无法模拟真实的空中对抗环境——当一架无人机需要追击另一架无人机时,双方都处于高速、剧烈的运动中。
研究团队将这种双向动态干扰称为“dual-dynamic disturbances”,它导致了视角急剧变化、背景快速移动和目标运动模糊等一系列复杂问题。
这正是UAV-Anti-UAV任务的核心挑战所在。

为了推动这一新兴领域的发展,研究团队从零构建了一个超大规模、高质量标注的数据集。
这个数据集包含 1810个视频序列,总计105万标注帧,涵盖了固定翼、多旋翼、垂直起降、FPV无人机和无人直升机等五种目标无人机类型。

与UAV123、Anti-UAV318等现有基准相比,新数据集不仅在规模上遥遥领先,更在多个维度上实现了突破:




面对这一高难度任务,研究团队提出了MambaSTS——一种专为时空语义集成学习设计的新框架。

MambaSTS的核心创新在于巧妙地结合了Transformer和Mamba两大架构的优势:
具体实现中,模型将模板图像、搜索图像和语言描述作为多模态输入。设计了一个“时间令牌传播”机制,可视为一个“记忆单元”。
这个单元持续收集和压缩过去帧中关于目标的关键信息(如外观、运动状态),然后将这份“记忆”传递给当前帧的处理过程。
即使目标在某一瞬间被完全遮挡或因高速运动而变得模糊,模型依然能依靠长期记忆保持对目标的稳定认知。最终,统一的时空语义网络将这些信息深度融合,通过无锚框追踪头预测目标的精确位置。
研究团队对50种当前最先进的追踪器进行了全面评估,结果令人深思:现有方法在UAV-Anti-UAV任务上表现普遍不足。

从整体性能曲线看,大部分追踪器的成功率(Success/AUC)都处于较低水平。而论文提出的MambaSTS基线模型凭借其出色的时空建模能力,取得了43.7%的AUC得分,显著领先于其他方法。

分析不同追踪属性下的表现发现,现有追踪器在处理光照剧烈变化、相似物体干扰、运动模糊和完全遮挡等挑战时尤其力不从心。
消融实验充分证明了MambaSTS各个组件的有效性。从强大的基线模型OSTrack(AUC 27.8%)开始,通过逐步加入时间建模、空间建模和语义建模模块,性能最终提升至43.7%,相对涨幅超过57%,效果显著。
这项研究的价值不仅在于技术突破,更在于它为低空经济安全提供了关键技术支撑。随着无人机在物流、巡检、娱乐等领域的广泛应用,如何防止无人机滥用、保障低空安全已成为迫在眉睫的问题。
UAV-Anti-UAV技术有望应用于无人机拦截、禁飞区防护、重要设施保护等场景,成为低空安全的“智能守护者”。
从学术角度看,这项研究开辟了视觉追踪的新方向,挑战了现有算法的极限,推动了多模态、长时序理解等技术的发展。
随着低空经济的蓬勃发展,无人机对抗无人机的技术将成为保障安全的关键屏障。这项研究不仅提出了挑战,更指明了方向——在这个全新的“空战”时代,视觉追踪技术必须迎接更复杂、更动态、更真实的考验。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。