前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪

CVPR2021|CenterPoint :基于点云数据的3D目标检测与跟踪

作者头像
3D视觉工坊
发布2021-03-19 11:13:58
3K0
发布2021-03-19 11:13:58
举报

图1:网络流程图

代码、论文地址:在公众号「3D视觉工坊」,后台回复「CenterPoint」,即可直接下载。

前言:

该文章是Center-based系列工作(CenterNet、CenterTrack、CenterPoint)的扩展,于2020年作者在arxiv公开了第一版CenterPoint,后续进一步将CenterPoint扩充成了一个两阶段的3D检测追踪模型,相比单阶段的CenterPoint,性能更佳,额外耗时很少。

本文的主要贡献是提出了一个两阶段Center-based的目标检测追踪模型,在第一阶段(如图1中的a,b,c),使用CenterPoint检测三维目标的检测框中心点,并回归其检测框大小,方向和速度。在第二阶段(如图1中的d)设计了一个refinement模块,对于第一阶段中的检测框,使用检测框中心的点特征回归检测框的score并进行refinement。

在nuScenes的3D检测和跟踪任务中,单阶段的CenterPoint效果很好,单个模型的NDS为65.5,AMOTA为63.8。模型性能很好,但是论文中说该模型的速度是在Waymo上11FPS,在nuScenes上为16FPS;同时模型的速度实验是在TiTan RTX上做的,也就是在所有边缘计算设备上均达不到实时计算。

主要的Contribution:

1. 使用点表示目标,简化三维目标检测任务:

与图像目标检测不同,在点云中的三维目标不遵循任何特定的方向,box-based的检测器很难枚举所有的方向或为旋转的对象拟合一个轴对齐的检测框。但Center-based的方法没有这个顾虑。点没有内转角。这极大地减少了搜索空间,同时保持目标的旋转不变性。(AblationStudy的结果可以看到Center-based方法对模型效果提升非常明显)

2. Center-based的方法可以简化追踪任务

作者表明由于该方法不需要额外的运动模型(如Kalman滤波),所以追踪计算时间可以忽略不计,在检测的基础上仅需要运行1毫秒。

3. 使用一个基于点特征的refinement模块作为网络的第二阶段。保障模型预测性能,同时也比现在大多数的refinement方法更快。我的理解是由于“检测--追踪”的多目标追踪流程对检测阶段的错误预测非常敏感,本文通过第二阶段预测bbox的score来降低CenterPoint第一阶段中产生的错误预测,提升目标检测的质量,同时进一步提升了追踪的结果。

下面具体来看一下实现细节。

实现细节

First Stage -- CenterPoint:

图二是CenterPoint的网络流程图,对应图一的a b c模块。

网络的输入为雷达点云数据。

网络的3D encoder部分使用了现有的网络模型,CenterPoint提供了两种主干网实现方式,分别为VoxelNet 和PointPillar。

图二:CenterPoint的网络流程图

网络的输出为基于类的Heatmap、目标的大小、转角和速度。其中Heatmap的生成方式与CenterNet类似。

首先,我们回顾一下CenterNet热力图的回归方式:对于任意尺寸为W*H*3的图像,我们会生成一个尺寸为W/R * H/R * K的热力图,其中K是检测的类别数。热力图的中元素的取值为0或1,其中若热力图该点为1,则图像中该点是一个检测框的中心,若为0,则该出在图像中为背景。

唯一的区别是:由于三维空间中目标分布离散且三维目标不会像图像中目标一样近大远小,如果按照CenterNet的方式生成Heatmap,那么Heatmap中将大部分都是背景,如图三所示。作者的解决方法是设置高斯半径公式为σ = max(f(wl); τ),其中τ = 2为最小高斯半径值,f为CenterNet的高斯半径求解方法。

图三:Heatmap的局限

Second Stage:

根据第一阶段的目标检测框和主干网featuremap,作者提取目标检测框每个面的中心点的在featuremap上的点特征值,将该特征值送入如图一d的全连接网络中,得到该目标检测框的检测置信度和精修结果。

具体地,由于目标检测框的顶面、地面的中心在birdview上为同一个点,故实际选择四个向外的面的中心在birdview上的点特征(具体的四个点的投影如图一c所示),作为全连接网络的输入值。同时,对于每个点特征,在实际提取时使用双线性插值从主干网的birdview的特征图中提取。

对于score的预测:

在训练时,Loss使用二进制交叉熵损失,如公式2所示,其中It为预测的置信度score,计算方式如公式1所示,表示预测结果与真值的3D IOU;

在推测时,直接使用第一阶段的CenterPoint的预测结果,最终预测结果的score(Qt)求法如图4所示。其中Yt的计算方式为第一阶段的目标检测框对应的热力图上值最大的一点。It为第二阶段计算的score。Qt时Yt与It的几何平均值。

图4:CenterPoint网络inference时score的计算方法

实验结果

检测结果

基于单阶段的CenterPoint而言。

如表一所示,在Waymo测试集上,CenterPoint在Level2上实现了车辆检测的71.8 mAPH和行人检测的66.4 mAPH,比之前的方法分别提高了7.1%和10.6%。

如表二所示,在nuScenes上,CenterPoint比去年的挑战冠军CBGS[67]高出5.2%的mAP和2.2%的NDS。

追踪结果:

表3显示了CenterPoint在Waymo测试集上的跟踪性能,其中AB3D是Waymo的追踪baseline。在nuScenes上(如表4),该框架比上一个挑战冠军Chiu等人的性能高出8.8 AMOTA。

Challenge:

论文中说该模型的速度是在Waymo上11FPS,在nuScenes上为16FPS;同时模型的速度实验是在TiTan RTX上做的,也就是在所有边缘计算设备上均达不到实时计算,这应该算是本网络的一个缺点了。

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档