CVPR 2022 | 商汤&南洋理工开源PTTR：基于Transformer的3D点云目标跟踪网络

Amusi

发布于 2022-04-18 17:26:11

5560

发布于 2022-04-18 17:26:11

文章被收录于专栏：CVerCVer

导读：在CVPR 2022上，商汤研究院团队提出了基于Transformer的3D点云跟踪模型PTTR。PTTR首先在特征提取阶段提出利用特征关联进行采样以保存更多跟被跟踪物体相关的点，然后设计了点云关联Transformer模块进行点云特征匹配。最后，PTTR提出一个轻量化的预测修正模块来进一步提升预测的准确性。实验结果显示PTTR在多个数据集上获得显著精度提升。

论文名称: PTTR: Relational 3D Point Cloud Object Tracking with Transformer

Paper: arxiv.org/abs/2112.02857

Code: github.com/Jasonkks/PTTR

问题和挑战

目标跟踪是一个基础的计算机视觉任务，在图像数据上已经获得了广泛的研究。近年来，随着雷达技术的发展，基于点云的目标跟踪也获得了更多的关注。点云数据有一些特有的挑战，比如点云的稀疏性、遮挡以及噪声。这些特点让我们无法直接使用基于图像的算法进行跟踪，而基于点云的跟踪算法目前还没有得到充分研究。点云跟踪的一大挑战是当物体离传感器较远时，稀疏的点云会给跟踪带来很大困难。另外，现有的点云跟踪算法主要采用余弦相似度这种线性方法进行特征的匹配，存在较大的提升空间。

方法介绍

针对以上提出的问题，我们提出了一个新颖的点云跟踪框架，如下图所示。模型分为三个阶段：在特征提取阶段，我们提出了一种新的语义感知采样方法(Semantic-Aware Sampling)，利用模板和搜索区域的特征关系来进行采样，从而保存更多的前景点。在特征匹配阶段，我们提出了一个点云关系Transformer结构（Point Relation Transformer），对模板和搜索区域的特征进行有效匹配。最后我们提出一个预测修正模块（Prediction Refinement Module），通过特征采样的方式来进一步提高预测的准确性。

1. 关系感知采样(Relation-Aware Sampling)

点云的稀疏性是跟踪算法的一大挑战，而点云的特征提取通常伴随着下采样的过程。现有跟踪算法大多采用随机采样的方式，会在采样过程中在搜索区域丢掉大量的前景点，不利于后续的特征匹配。所以我们提出语义感知采样，利用模板和搜索区域的特征距离进行采样。由于模板区域大多数由目标物体上的点云组成，因此我们在搜索区域采样那些特征距离和模板尽可能小的点，就能尽可能地得到更多的前景点。如下图所示，我们对比了不同的采样方法，采样得到的点中位于3维目标框中的比例，可以明显地看到我们提出的RAS最大程度地得到了前景点。

2. 关系增强匹配(Relation-Enhanced Feature Matching)

在跟踪问题中，我们需要匹配模板和搜索区域的点，大多数已有的3D单目标跟踪算法采用了特征的余弦距离，认为余弦距离小的点匹配程度高。与此不同的是，我们基于注意力机制在计算机视觉中的成功应用，设计了基于关系的注意力机制，来匹配模板和搜索区域的点云。如下图所示，我们设计的注意力模块利用了offset-attention，将query，key，value特征进行融合，并通过激活层引入非线性。具体来说，我们先通过一个self-attention模块来分别处理模板和搜索区域点云，接着我们将搜索区域点云作为query，模板区域点云作为key和value，输入到一个cross-attention，就得到了匹配之后的搜索区域点云特征。

3. 从粗到细的预测(Coarse-to-Fine Tracking Prediction)

大多数已有的3D单目标跟踪算法都简单地使用了3D检测器的预测模块，例如Votenet，RPN等。我们认为类似的检测预测模块不可避免地引入了多余的计算，导致了效率的降低。因此我们提出了一个新的预测修正模块，该模块通过从模板点云，搜索点云，融合后的搜索点云分别取出对应点云特征，将他们结合后直接预测。本质上，我们让搜索区域的每一个点，通过不同阶段的特征预测一个proposal。在inference阶段，我们将得分最高的那个proposal作为预测结果。

4. 数据集

除了方法上的贡献，我们还提出了一个基于Waymo Open Dataset新的大规模点云跟踪数据集。由于Waymo中对于每个目标都标注了对应的ID，因此可以提取出某个ID在不同时刻的位置信息，基于此，我们制作了Waymo的单目标跟踪数据集，如下表所示，我们制作的Waymo跟踪数据集在数据量上远远超过了KITTI，为学术界在大数据集上进一步的研究提供了一个baseline。