Towards Real-Time Multi-Object Tracking是一个online的多目标跟踪(MOT)算法,基于TBD(Traking-by-Detection)的策略,在之前的MOT算法中惯用的策略就是先检测,得到视频中目标bbox,然后再考虑前后帧的匹配策略,为了更好的匹配效果,一般匹配中都会加入Re-ID,文章中把Re-ID等同于embedding,即一般方法中,detection model和embedding model是分开,独立的。而《Towards Real-Time Multi-Object Tracking》中将detection model和embedding model整合为一个模型,即Joint Detection and Embedding (JDE) model,所以我们用JDE作为《Towards Real-Time Multi-Object Tracking》的简称。
JDE核心思想是一种联合检测和嵌入向量的模型,即Joint Detection and Embedding model,既然是tracking by detection的策略,那么检测模型是必不可少的,剩下的embedding在前后帧的ID匹配过程中起到关键的作用,而JDE提出了这两部分共享一个模型,与之对应的就是Separate Detection and Embedding (SDE) model,即检测和后续的Embedding是分开的,独立的两个部分,后续ID匹配的过程只需要检测模型提供bbox就可以,和检测模型本身并没有任何关系,SDE model的典型代表就是DeepSort。
除此之外,JDE的contributions有:
JDE的基础检测模型,用了FPN结构,一共有三层,分别做1/32、1/16和1/8的下采样,每一层都会接出预测头(Predicion Head),而预测头除了常规的分类和定位分支外,会加上一个Embedding分支,这个分支后续用来做Re-ID。三个分支的Shape分别是:
既然是前后帧的匹配,前一帧的输出信息需要被保留下来,当前帧同样输出三个分支信息后,根据Embedding结果进行匹配,Embedding layer输出为D×H×W,特征图宽高的维度和检测输出的特征图是一致的,特征图中每一个位置都是一个潜在的object,这也就意味着,每一个object的embedding vector的维度都是D,在源码中这个 D=512,而具体是不是目标,以及目标的位置就由另外两个分支决定了。
得到了前一帧后当前帧的所有目标,以及embedding vector后,依照下面的过程进行匹配,假设前一帧的目标数量为m ,当前帧的目标数量为n :
Method | Det | Emb | #box | #id | MOTA | IDF1 | MT | ML | IDs | FPSD | FPSA | FPS |
---|---|---|---|---|---|---|---|---|---|---|---|---|
DeepSORT 2 | FRCNN | WRN | 429K | 1.2k | 61.4 | 62.2 | 32.8 | 18.2 | 781 | <15∗ | 17.4 | <8.1 |
RAR16wVGG | FRCNN | Inception | 429K | - | 63.0 | 63.8 | 39.9 | 22.1 | 482 | <15∗ | 1.6 | <1.5 |
TAP | FRCNN | MRCNN | 429K | - | 64.8 | 73.5 | 40.6 | 22.0 | 794 | <15∗ | 18.2 | <8.2 |
CNNMTT | FRCNN | 5-Layer | 429K | 0.2K | 65.2 | 62.2 | 32.4 | 21.3 | 946 | <15∗ | 11.2 | <6.4 |
POI | FRCNN | QAN | 429K | 16K | 66.1 | 65.1 | 34.0 | 21.3 | 805 | <15∗ | 9.9 | <6 |
JDE-864(ours) | JDE | - | 270K | 8.7K | 62.1 | 56.9 | 34.4 | 16.7 | 1,608 | 34.3 | 81.0 | 24.1 |
JDE-1088(ours) | JDE | - | 270K | 8.7K | 64.4 | 55.8 | 35.4 | 20.0 | 1,544 | 24.5 | 81.5 | 18.8 |
从上表中可以看出:
JDE合并检测和Re-ID模块可以有效的提高效率,避免受限于目标数量的Re-ID的特征提取耗时,但是带来的是检测模型和Re-ID模型的高度耦合,检测和匹配不再是独立的两个部分,如果想要改变其中一个,另一个也必须要变。