DeepSORT再升级 | Deep OC-SORT引入目标外观信息，大幅领先SOTA

AiCharm

发布于 2023-05-15 16:45:54

4K0

文章被收录于专栏：AiCharmAiCharm

随着强大的目标检测器的兴起，基于运动的多目标跟踪（MOT）关联最近重新获得了关注。尽管如此，除了缺乏对特征退化的鲁棒性的简单启发式模型之外，很少有工作将外观线索纳入其中。在本文中提出了一种利用对象外观的新方法，以将外观匹配自适应地集成到现有的高性能基于运动的方法中。基于基于纯运动的方法OC-SORT，分别以63.9和64.9 HOTA在MOT20和MOT17上获得第一名和第二名。也在具有挑战性的DanceTrack基准测试上实现了61.3 HOTA，这是一种新的sota，即使与设计更严格的方法相比也是如此。代码:https://github.com/GerardMaggiolino/Deep-OC-SORT。

1、简介

随着先进的目标检测器和基于运动的关联算法的成功，除了简单的移动平均模型之外，视觉外观与基于运动的匹配的有效集成仍然相对不足。

在这项工作中从最近的基于纯运动的跟踪算法OC-SORT开始，通过将视觉外观与新方法相结合来提高跟踪鲁棒性。强嵌入模型的边界框级视觉特征仍然包含由于遮挡、运动模糊或类似外观的对象而产生的显著噪声。

本文提出了一种基于动态和自适应启发式的模型，以将视觉外观与基于运动的线索结合在单个阶段中进行对象关联。如果没有细粒度语义（例如实例分割），可以提高使用对象之间的视觉比较进行关联的准确性。除了更有效地将外观线索添加到基于运动的对象关联之外，还集成了相机运动补偿，通过补充以对象为中心的运动模型来提高性能。

本文的方法为未来的工作提供了一个新的、有效的基线模型。它在MOT17、MOT20和DanceTrack基准的所有已发表作品中创下了最新水平。由于重点是将视觉外观引入OC-SORT，因此将方法命名为Deep OC-SORT。作者注意到将视觉外观与基于运动的方法相结合的自适应方式是新设计的，而不是对DeepSORT在SORT上所做的直接调整。

2、相关工作

2.1、基于运动的多对象跟踪

考虑到目标检测器的快速改进，许多现代端到端的MOT模型仍然比不上经典的基于运动模型的跟踪算法。卡尔曼滤波器是最著名的检测跟踪方法的基础。在这项工作中，SORT使用线性运动假设来关联IoU的轨迹。ByteTrack最近被提出通过在关联中使用低置信候选来修复缺失的预测，通过平衡检测质量和跟踪置信度来实现良好的性能。最近，OC-SORT提高了非线性运动场景中跟踪的鲁棒性，并通过更严重地直接依赖检测来减轻对象遮挡或消失的影响。

2.2、基于外观的多对象跟踪

视觉识别是随着时间推移关联目标的直接提示。DeepSORT是最早使用深度视觉特征进行对象关联的方法之一。从那时起，更多的方法通过以端到端的方式训练辨别性外观模型，在整合视觉信息方面有所改进。

最近，Transformer的兴起开始了另一波使用外观进行多目标跟踪的浪潮，其中目标关联的任务被建模为查询匹配问题。然而，当感兴趣的目标具有相似的外观或被遮挡时，观察到基于外观的方法不太有效。

尽管具有更复杂的架构，但这些方法无法胜过利用强检测器的简单运动关联算法。最近一些尝试将外观提示添加到基于运动的方法中的尝试使用简单的移动平均值进行外观嵌入更新，取得了适度的成功。

3、本文方法

在本节中将介绍深度OCSORT的3个模块：相机运动补偿（CMC）、动态外观（DA）和自适应加权（AW）。

算法管道如图1所示：

3.1、Preliminary: OC-SORT

本文的工作基于最近的基于卡尔曼滤波器的跟踪算法OC-SORT，它是SORT的扩展。SORT依赖于目标跟踪的线性运动假设，并利用卡尔曼滤波器将来自目标检测器的预测与IoU的运动模型的位置估计相关联。当视频帧速率高时，线性运动假设对于相邻视频帧上的目标位移是有效的。

然而，当跟踪目标在遮挡下消失时，卡尔曼滤波器期间的缺失测量会随着卡尔曼滤波器参数的时间二次更新复合误差。

OC-SORT提出了3个模块来帮助解决基于运动模型的错误：OCM（观测中心动量）、OCR（观测中心恢复）和OOS（观测中心在线平滑）。本文继承了OC-SORT的整个流水线，包括从成本矩阵关联匹配的匈牙利算法。

3.2、Camera Motion Compensation (CMC)

由于OC-SORT高度依赖于检测质量，作者引入CMC来更精确地定位运动场景中的逐帧目标。给定缩放旋转矩阵

M_t=s_tR_t

和平移

T_t

，其中

M_t \in R^{2×2}

和

T_t \in R^{2×1}

，将它们分别应用于OC-SORT的3个分量：

1、OOS + CMC

卡尔曼滤波器从线性插值路径更新，从最后一次已知测量开始。最后一个已知的测量由

[x_c,y_c,a,s]

组成，前两个条目作为边界框的中心。边界框的中心类似地由

c← M_tc+T_t

，从而从相机校正的测量开始对路径进行插值。

2、OCM + CMC

设

p_1、p_2

为边界框的左上角点和右下角点。OCM使用最后的

∆t=3

个边界框来计算边界框角速度。在每个时间步

，应用变换

p_i← M_{tpi}+T_t

到边界框。OCM期间，这从

t−∆t

变为时间步长

。

3、OCR + CMC

对于OCR中最后看到的边界框位置，在每个时间步

，应用

p_i←M_{tpi}+T_t

以调整其在CMC下的位置。

对于OC-SORT，卡尔曼状态是

x=[x_c,y_c,a,s,\dot{x}_c,\dot{y}_c,\dot{a}]

。应用CMC来修正卡尔曼状态：

作者注意到可以将CMC变换的尺度应用于面积a，或近似旋转来改变高宽比s。然而，与中心点相比，被旋转目标的包围边界框并不是线性近似的，而是需要一个被包围目标的细粒度掩模。

虽然近似适合于OCM和OCR，但卡尔曼滤波器在经验上对近似变化更为敏感。本文在卡尔曼外推步骤之前应用这个CMC更新，使预测阶段来自CMC校正的状态。

3.3、动态外观

在之前的工作中，用于描述轨迹的深度视觉嵌入是由深度检测嵌入逐帧的指数移动平均（EMA）给出的。这需要一个加权因子α来调整来自历史和当前时间步长的视觉嵌入的比例。

作者建议根据检测器的置信度，在每帧的基础上修改EMA的α。这种灵活的α允许只在高质量的情况下有选择地将外观信息合并到轨道的模型中。

作者使用低检测器置信度作为代理来识别由于遮挡或模糊造成的图像退化，允许拒绝损坏的嵌入。让et是轨迹的外观嵌入在时间t。标准EMA为

其中

e^{new}

是被添加到模型中的匹配检测的外观。建议定义为

的变化的

\alpha{t}

代替

\alpha

，其中

s_{det}

是检测器置信度，

\delta

是用于过滤噪声检测的检测置信度阈值。

设置固定值

α_f=0.95

。检测器预测提供

s_{det}

，控制动态操作。当

s_{det}=σ

时，有

α_t=1

，因此新的外观嵌入被完全忽略。相比之下，

s_{det}＝1

意味着

α_t＝α_f

，并且

e^{new}

被最大程度地添加到tracklet视觉嵌入的更新中。该值随检测器置信度线性缩放。生成动态外观的操作不会为标准EMA引入新的超参数。

3.4、自适应加权

自适应加权根据外观嵌入的区别性增加了外观特征的权重。使用轨道和框嵌入的标准余弦相似度可以得到一个

M×N

外观成本矩阵，

A_c

，其中

和

分别是轨道和检测的数量。

A_c[m,n]

表示在第

行和第

列相交处的条目。这通常与IoU成本矩阵Ic结合为

C = I_c+a_wA_c

，在−C上具有最小的线性和分配成本最小。

建议基于歧视性提高个体跟踪框得分，在全局

a_w

中添加$w_b(m,n)。

让

\tau_{m}

表示轨迹，

d_n

表示检测。当

\tau_{m}

只对一个框（包含在

Ac[m,:]

行中）有很高的相似度得分时，我们将比

Ac[m,:]

行增加外观权重。如果一个检测

d_n

仅与一个轨道有区别地关联，则对

A_c

的列应用相同的操作。使用

z_{diff}

来衡量框轨对的区别性，它被定义为一行或一列的最高值和第二高值之间的差异：

其中，

\epsilon

是一个超参数，以限制在第一和第二最佳匹配之间的外观成本有很大的差异。然后，推导出的加权因子为

其结果是最终的成本矩阵

为

选择仅基于第一和第二最高得分来衡量区分性，而不是像KL散度这样的概率分布度量，因为得分较低的比赛之间的值分布是不相关的。真正的正面外观匹配是指一个高分与下一个最佳匹配之间的距离较大。

4、实验

4.1、基准测试结果

4.2、消融研究

5、参考

[1].DEEP OC-SORT: MULTI-PEDESTRIAN TRACKING BY ADAPTIVE RE-IDENTIFICATION.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-03-06，如有侵权请联系 cloudcommunity@tencent.com 删除

sort

本文分享自 AiCharm 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度