前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2022年MOT新SOTA

2022年MOT新SOTA

作者头像
孔西皮
发布2023-10-18 08:53:17
3160
发布2023-10-18 08:53:17
举报
文章被收录于专栏:前行的CVer前行的CVer

论文:BoT-SORT: Robust Associations Multi-Pedestrian Tracking

代码:https://github.com/NirAharon/BOT-SORT

本篇工作达到了2022年MOT17和MOT20两个数据集的新SOTA。该方法是基于ByteTrack的改进,论文主要包括三个点:一是更改了卡尔曼滤波器中的状态向量(MOTA +0.01%, IDF1 +0.12%, HOTA +0.24%),二是添加了相机运动补偿(MOTA +0.64%, IDF1 +1.62%, HOTA +0.94%),三是提出了一种IoU和ReID余弦距离的融合方法(使用ReID MOTA +0.07%, IDF1 +0.54%, HOTA +0.06%)。标出的性能提升为在MOT17验证集的结果。接下来介绍一下这三个点的实现细节:

使用(cx, cy, w, h, cx', cy', w', h')作为卡尔曼滤波器的状态。而非之前使用的(cx, cy, s=w*h, r=w/h, cx', cy', s')或者(cx, cy, r=w/h, h, cx', cy', r', h')。

增加了相机运动补偿(CMC),具体做法是使用OpenCV中的全局运动补偿(GMC)的 RANSAC 算法得到仿射变换矩阵 A_{k-1}^k\in \mathbb{R}^{2\times 3},然后卡尔曼滤波器中的预测状态 \hat{x}_{k|k-1} 和协方差矩阵 {P}_{k|k-1} 分别按如下公式应用仿射矩阵变为 \hat{{x}}_{k \mid k-1}^{\prime}{P}_{k \mid k-1}^{\prime}

其中M代表缩放旋转变换,T代表平移变换。当高速情况下,这两项修正都必不可少;当相机相对于帧率变化较慢时,可以省略 {P}_{k|k-1}

:

e_i^k = \alpha e_i^{k-1}+(1-\alpha)f_i^k

其中

然后将轨迹和当前检测之间的外观余弦相似度距离 d^{cos} 和 IoU距离 d^{iou} 按照下面公式融合为一个距离矩阵 C,用于匈牙利匹配。两种距离的阈值分别取\theta_{iou}=0.5, \theta_{emb}=0.25

CBIoU
CBIoU

在MOT17和MOT20上的结果如下:

CBIoU
CBIoU
CBIoU
CBIoU

本方法的使用限制:在运动物体密度较高的场景中,由于缺乏背景关键点,可能导致相机运动补偿估计失败,从而导致意想不到的跟踪行为。另外CMC过程对算法速度有些影响。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档