以前写过一个“自动驾驶中的目标跟踪”介绍,这次重点放在深度学习和摄像头数据方面吧。
先提一下以前说的那篇综述:
Daimler公司研发组2017年写的一篇综述,主要总结当时深度学习如何在多目标跟踪应用的工作。
一个多目标跟踪系统的框架大同小异,如图所示,数据相关(data association),状态预测(state prediction),状态更新(state update)和跟踪管理(track management)几个部分。
下图是通用的多目标跟踪系统框架。
而应用深度学习在目标跟踪中的方法可总结为四种途径(如上图):
下面对每个途径介绍一两个例子。
L. Wang, W. Ouyang, X. Wang, and H. Lu, “Visual Tracking with Fully Convolutional Networks,” in ICCV, 2015
2. Data Association
L. Leal-Taixe, C. Canton-Ferrer, and K. Schindler, “Learning by Tracking: Siamese CNN for Robust target association,” in CVPRW, 2016
3. Prediction
A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese, “Social LSTM: Human Trajectory Prediction in Crowded Spaces,” in CVPR, 2016
S. Yi, H. Li, and X. Wang, “Pedestrian Behavior Understanding and Prediction with Deep Neural Networks” in ECCV, 2016
S. Hoermann, M. Bach, and K. Dietmayer, “Dynamic Occupancy Grid Prediction for Urban Autonomous Driving: A Deep Learning Approach with Fully Automatic Labeling ” in IV, 2017
4. E2E
I. Posner and P. Ondruska, “Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks” in AAAI, 2016
A. Milan, S. H. Rezatofighi, A. Dick, K. Schindler, and I. Reid, “Online Multi-target Tracking using Recurrent Neural Networks” in AAAI, 2017
这是最近的一篇MOT综述文章。重点是介绍2D单目摄像头数据方法。
MOT算法采用的标准方法是通过检测进行跟踪:通常从视频帧中提取出一组检测结果(即,标识图像中目标的边框),并用于引导跟踪过程,即将相同ID分配给包含相同目标的边界框。因此,许多MOT算法任务实际是分配问题。
现代的检测框架如SSD、YOLO和RCNN系列,确保了良好的检测质量,大多数MOT方法(除了某些例外)一直致力于改善关联性。实际上,许多MOT数据集提供了一组标准的检测方法,算法可以使用这些检测方法,以便专门比较在关联算法质量上的性能,因为检测器的性能会严重影响跟踪结果。如图是MOT算法的展示。
MOT算法也可以分为批处理和在线方法。在尝试确定特定帧的目标个体时,允许批处理跟踪算法使用将来的信息(即来自将来的帧)。它们经常利用全局信息提高跟踪质量。相反,在线跟踪算法只能使用当前和过去的信息来预测当前帧。某些情况下是必需的,例如自动驾驶和机器人导航。与批处理方法相比,在线方法往往表现较差,因为它们无法使用将来的信息来修复过去的错误。重要的是,虽然要求实时算法以在线方式运行,但并非每种在线方法都必须实时运行;实际上,除了极少数例外,很多时候在线算法仍然太慢而无法在实时环境中使用,特别是深度学习算法通常会占用大量计算资源。
尽管方法种类繁多,大多数MOT算法共享以下部分或全部的步骤(如图所示):
国内一篇基于单摄像头的单目标跟踪的综述。
根据网络结构、网络特征和网络训练将现有的基于深度学习的跟踪器分为三类:
“Deep learning for multiple object tracking: a survey“,8,2019
这也是国内最近的一篇MOT综述文章。
文章将基于DL的MOT方法大致分为三类:
如图是基于深度学习的MOT方法图:
下表是所列MOT方法的细节对比。
下图是深度SORT(Simple Online and Realtime Tracking)算法的示意图:从wide residual network (WRN) 中提取用于分类的深层特征用于增强检测和轨道之间的匹配(WRN的WRB – 残差块)。
如图是STAM(spatial-temporal attention mechanism)-MOT的框架:(a)构造深度CNN学习空间注意力和特定目标的分类器,(b)使用基于采样的搜索方法来找到最佳候选者。
如图是RNN(recurrent neural networks)-LSTM跟踪框架:构建一个基于RNN的网络学习预测、更新状态和终止概率。基于LSTM的网络用于在检测和目标之间找到最佳关联。
总之,综述中作者基于现有方法分析了深度特征迁移、神经网络嵌入和端到端网络训练的机制。其次,讨论深度网络在跟踪框架中的作用,以及训练这些网络的问题。再者,根据常见的数据集和评估重新对这些多目标跟踪方法进行比较,并强调了各自方法的优点和局限性。一方面,远没有足够的标记数据集训练满意的模型在任何条件下进行跟踪。生成网络(条件,期望对跟踪的目标学习高阶或在线迁移的特征。