开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >AAAI2021论文：一个高性能3-D目标两步检测法Voxel R-CNN

AAAI2021论文：一个高性能3-D目标两步检测法Voxel R-CNN

作者头像

3D视觉工坊

发布于 2021-01-28 18:34:54

8440

发布于 2021-01-28 18:34:54

举报

文章被收录于专栏：3D视觉从入门到精通

AAAI2021录取论文 “Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection“，作者来自中科大和香港中文大学。

本文提出一个有趣的问题：一般大家看到point-based特征计算量大，voxel-based结构更适合特征提取，但精度下降；而作者认为，点云数据的精确定位并不需要，而粗voxel粒度也能产生充分检测精度。设计的模型Voxel R-CNN，是一个两步法，仍然达到和当前point-based方法可比的检测性能，但计算量只是其一部分。Voxel R-CNN包括3D主干网络，2D BEV RPN和检测头，其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。

在文章首页中看到的图示，给出属于两步法的当前point-based方法和该文方法的比较。

作者分析SECOND和PV-RCNN的区别，前者是单步voxel-based方法，3D主干网络加2D BEV RPN；后者是进一步改进，加入一个keypoint分支，保持3D结构信息，其VSA（voxel set abstraction）集成多尺度3D voxels特征。然后由此做RoI pooling得到Region proposals。

这样作者在SECOND的2D主干网中探索rotated ROI align提取ROI特征。由此得到两点认识：1）3D结构很重要，因为BEV不足预测精确的3D BBox；2）point-voxel特征交互费时，影响效率。

设计的Voxel R-CNN model概览图如下：

voxel RoI pooling是从3D voxel特征体中聚集spatial context。这里提出一个新操作符，voxel query，在3D特征体中找邻域voxel，可以聚类voxels。如图所示：

在一个距离范围寻找K个voxels，其中采用Manhattan距离，即

基于此，采用PointNet模块聚集邻域voxel features，记gi是grid points，vi是voxels，那么最后特征如同下面公式计算：

作者只是从3D 主干网络的最后两级提取voxel特征，每一级的曼哈顿距离门限不同，最后把不同级和尺度的特征拼接在一起得到RoI特征。

不过，这个聚集特征过程计算量仍然很大，作者采用了加速方法，如图所示：

网络架构设计基本从SECOND和PV-RCNN过来的。推理中，RPN中IoU门限=0.7做NMS，得到top-100 region proposals进入detection head；细化后NMS再次应用，这里IoU门限=0.1去除冗余。

训练中loss函数如下：

RPN的损失项

其中分类采用Focal loss，box回归采用Huber loss。

先定义一个confidence分支和IoU相关的数值

框回归分支也采用Huber loss。这样，检测头的损失项

实验结果如下：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-01-22，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

图像处理

图像处理基于腾讯云深度学习等人工智能技术，提供综合性的图像优化处理服务，包括图像质量评估、图像清晰度增强、图像智能裁剪等。

产品介绍产品文档

精选特惠用云无忧