开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >打遍天下无敌手，却说它只是个baseline！多目标跟踪FairMOT的烦恼

打遍天下无敌手，却说它只是个baseline！多目标跟踪FairMOT的烦恼

CV君

发布于 2020-04-17 17:40:53

3.5K0

发布于 2020-04-17 17:40:53

举报

文章被收录于专栏：我爱计算机视觉

你有没有遇到过这样的烦恼，绞尽脑汁憋出了个别人没做多的idea，感觉弥补了现今理论的重大漏洞，必定实现精度和速度的比翼齐飞！可是费了九牛二虎之力跑完了实验，结果却一点改进也没有。

唉！

[抱抱] 这是科研之日常～

不过前几天新出的一篇多目标跟踪的论文，在主流的多目标跟踪数据集上结果异常好，几乎打败之前所有State-of-the-art算法，但作者却称该算法只是个baseline，而且是simple baseline！

该文即 A Simple Baseline for Multi-Object Tracking ：

作者来自华中科技大学和微软亚洲研究院。

目前多目标跟踪算法基本都是以目标检测和目标重识别（ReID）为核心组件，目标检测是为了发现当前画面所有的目标，ReID则是将当前所有目标与之前帧的目标建立关联，后一步可以通过ReID特征向量的距离比较和目标区域交并比（IOU）来建立关联。

看起来思路还是很直接的，目标检测和ReID结合的方式就成为了多目标跟踪方法技术分类的依据。

作者指出目前方法多可归纳为两类。

1. 两步法 Two-Step MOT Methods

先进行目标检测，然后对于检测到的目标resize到固定大小，然后提取ReID特征，这种方法很显然的好处是，目标尺度被很好的归一化了，但明显的问题是目标检测和ReID特征提取之间没有特征复用，计算成本很高。

2. 一步到位法 One-Shot MOT Methods

目标检测的同时也进行ReID特征提取，现有的方法比如Track-RCNN、JDE（Towards real-time multi-object tracking）直接在Mask R-CNN、YOLOv3的检测端并行加入ReID特征向量输出。很显然这能节约计算时间，但作者研究发现此类方法存在目标ID关联不正确的问题。

该文研究的即 One-Shot MOT Methods 类方法，认为现有的此类别的多目标跟踪方法使用了anchor-based 类目标检测，目标的ReID特征是在anchor区域提取的，anchor 和目标区域会出现不对齐的问题，这会导致网络训练时存在严重的歧义。

如下图，

左图红色和黄色框都是为了估计蓝色衣服人位置的anchor，但其都与目标存在较大的位置偏差，在这些anchor上提取特征并告诉ReID网络来自同一个人，是不合适的。

算法改进

【改进点一】

作者解决的办法其实也很简单的，那就是不要使用基于anchor的目标检测方法嘛，用anchor-free的方法，尤其是以 Objects as points 为代表的方法，将目标检测看作为目标中心点检测的问题，依此中心点输出ReID特征。

看起来不错！

【改进点二】

另外，两步法对尺度变化不敏感，为加强处理One-Shot MOT 类方法对大小目标通杀，作者引入了Multi-Layer Feature Aggregation，将网络高层次和低层次特征融合。

也很有道理！

【改进点三】

通常ReID问题中特征向量维度越大表现越好，但这需要大量的训练数据。在多目标跟踪的ReID问题中数据并不丰富，作者发现维度小一点其实更好，降低了过拟合的风险，还可以减少计算量。

犀利的眼光！

该文选择了 Objects as points 目标检测方法，算法框架如下：

图像经编码器-解码器网络输出两个任务，目标检测和ReID特征提取，检测部分输出候选目标中心点热图heatmap、目标包围框大小 box size、目标中心相对原图实际位置的偏移量 center offset。

ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征，所以检测部分结果出来，其对应的ReID特征就有了。

作者称该算法为FairMOT，意即目标检测和ReID特征提取兼顾的多目标跟踪算法。

实验结果

重头戏到了，以上改进看起来只是算法替换和小打小闹，却带来了异常惊艳的结果！

与其他one-shot 跟踪算法的比较：

精度和速度都是大幅超越，完胜！

与其他在线跟踪器包括多个 two-step 方法 state-of-the-art 在多个数据集上的比较：

在大多数指标下都是大幅超越第二名的完胜，少部分不是第一的，也是接近顶尖的水平。

而且相比其他算法速度也很快，达到30FPS。

以下是作者跑出来的一些结果：

虽然人多的画面各个目标框人眼已经难以区分，但大家可以明显感觉到在人群如此拥挤的情况下各个框的稳定性非常好。

FairMOT是目前最好的多目标跟踪算法，而且代码开源了。

该文没有提出惊世骇俗的理论，只是发现了以往算法的重大缺陷，替换修补之，结果却很惊艳！这样的论文对你有启发吗？欢迎留言讨论！

论文地址：

https://arxiv.org/abs/2004.01888

代码地址：

https://github.com/ifzhang/FairMOT

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-04-14，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自我爱计算机视觉微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

图像识别

腾讯云图像识别基于深度学习等人工智能技术，提供车辆，物体及场景等检测和识别服务，已上线产品子功能包含车辆识别，商品识别，宠物识别，文件封识别等，更多功能接口敬请期待。

产品介绍产品文档

精选特惠用云无忧