论文DepthTrack: Unveiling the Power of RGBD Tracking阅读及代码讲解[通俗易懂]

全栈程序员站长

发布于 2022-10-05 09:48:30

5790

发布于 2022-10-05 09:48:30

大家好，又见面了，我是你们的朋友全栈君。

最近终于有了一篇的顶会像样的RGBD tracking的论文了： ICCV2021: DepthTrack: Unveiling the Power of RGBD Tracking Github: https://github.com/xiaozai/DeT

数据集简介

这边看完就随手记录一下关键的部分：主要是创建了个大规模的RGBD tracking benchmark: DepthTrack (有数据集之后才能促进算法的研究)，当然随之也搞了个baseline tracker—DeT, 这也是现在搞dataset contribution的基本套路。

新创建的数据集DepthTrack比以往的RGBD Tracking的数据集具有以下的特点:

序列数较多: 训练和测试训练分别有150和50个（github上提供了修改后的151个训练序列），训练集有218,201帧，测试集有76,390帧
场景有40个，目标有90个，数据多样性方面显得更加丰富了，采自intel realsense415，自动模态同步，分辨率为640×360, 30fps
DepthTrack视频平均帧数为1473，可以看做是一个长时的跟踪数据集（因为短时的RGB tracker现在已经基本解决了，特别是最近出现的transformer-based的已经到达RGB的天花板了。所以新出的RGBD不能太简单，否则直接用RGB信息就刷爆了;再者评价指标用的也是和VOT LT一样的P-R曲线和F-Score）
该数据集的测试集曾作为VOT2021 RGBD的隐藏集来选出最终该赛道的冠军

数据集为了对RGB Tracker更具有挑战性，也为了突出Depth信息真的有助于RGBD Tracker的学习，部分序列会针对RGB Tracker中还存在的几方面的属性进行收集。比如黑暗场景，目标和背景颜色纹理相似，形变物体，相似物体。确实，这才是多模态数据提出来更主要的意义。（据我了解，轻微的遮挡对于transformer-based 的RGB Tracker已经不是太大问题了）

baseline性能

先放几张VOT RGBD2021的结果图，上边的是在公开集CDTB上测出来的，下面是选出在公开集上的前三名和组委会自己选的几个往年好的tracker在隐藏集上（也就是现在的DepthTrack的测试集）的性能，这里面的算法多半只是把depth信息当做一个sidekick，但是会用很多个tracker一起融合出结果，比较sophisticated

然后是论文里面的baseline DeT的性能: 主要看Sequence-based的评测就好了，这个是和上面用的一样的方法。但是还是有点尴尬，似乎不及上面的冠军，也只能排个第二，但是毕竟人家只是一个simple baseline，还有发挥的空间。

DeT代码

先放几张框架图

具体代码和原初ATOM和DIMP代码是差不多的。就是增加了对depth image的backbone特征提取，在代码用的color image和rgb image合并成一个6通道的输入到backbone里面，然后merge两个模态下的reference和test特征，具体就是max或者mean或者mul，这几个操作都是element-wise的，所以得到的tensor就是和原初ATOM和DIMP的是一样的，所以送入后面进行iou预测过程就都一样了，整体改动是比较容易的。基本还是延续了benckmark+baseline=paper的模式，说明还是有很大提升空间的。具体请看ltr/models/bbreg/atom.py文件即可清楚

DepthTrack的test评估

说到这个的评估，不得不说到CDTB(也就是VOT RGBD2019和VOT RGBD2020的公开集，当时也没有隐藏集，所以冠军也是通过在其上评估排名得到的)，像RGBD都是one pass evaluation的(也就是rgbd-unsupervised)，所以可以先跑完再用toolkit进行评估。我评估出来和论文里面的值是一模一样的：

我自己跑出来的结果：

评估很简单，只要做好下面几方面:

下载好CDTB数据集（不会下的可以去看我的这篇博客，把它放在你创建的workspace下的sequences文件夹里面，或者直接去这里面获取下载链接）

从上面的github里面获得在CDTB上的结果，把它放在你创建的workspace下的results文件夹里下

编写trackers.ini，内容如下（command任意不用管）：

[DeT_ATOM_MC]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DeT_ATOM_Max]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DeT_ATOM_Mean]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DeT_DiMP50_DO]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DeT_DiMP50_MC]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DeT_DiMP50_Max]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DeT_DiMP50_Mean]  # <tracker-name>
protocol = traxpython
command = jjjjj
[DiMP50]  # <tracker-name>
protocol = traxpython
command = jjjjj

然后运行vot analysis --workspace <your_workspace_dir> DeT_ATOM_MC DeT_ATOM_Max DeT_ATOM_Mean DeT_DiMP50_DO DeT_DiMP50_MC DeT_DiMP50_Max DeT_DiMP50_Mean DiMP50 --format html，就可以出结果了。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022年9月14日，如有侵权请联系 cloudcommunity@tencent.com 删除

linux