前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AAAI2021论文:一个高性能3-D目标两步检测法Voxel R-CNN

AAAI2021论文:一个高性能3-D目标两步检测法Voxel R-CNN

作者头像
3D视觉工坊
发布2021-01-28 18:34:54
8440
发布2021-01-28 18:34:54
举报
文章被收录于专栏:3D视觉从入门到精通

AAAI2021录取论文 “Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection“,作者来自中科大和香港中文大学。

本文提出一个有趣的问题:一般大家看到point-based特征计算量大,voxel-based结构更适合特征提取,但精度下降;而作者认为,点云数据的精确定位并不需要,而粗voxel粒度也能产生充分检测精度。设计的模型Voxel R-CNN,是一个两步法,仍然达到和当前point-based方法可比的检测性能,但计算量只是其一部分。Voxel R-CNN包括3D主干网络,2D BEV RPN和检测头,其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。

在文章首页中看到的图示,给出属于两步法的当前point-based方法和该文方法的比较。

作者分析SECOND和PV-RCNN的区别,前者是单步voxel-based方法,3D主干网络加2D BEV RPN;后者是进一步改进,加入一个keypoint分支,保持3D结构信息,其VSA(voxel set abstraction)集成多尺度3D voxels特征。然后由此做RoI pooling得到Region proposals。

这样作者在SECOND的2D主干网中探索rotated ROI align提取ROI特征。由此得到两点认识:1)3D结构很重要,因为BEV不足预测精确的3D BBox;2)point-voxel特征交互费时,影响效率。

设计的Voxel R-CNN model概览图如下:

voxel RoI pooling是从3D voxel特征体中聚集spatial context。这里提出一个新操作符,voxel query,在3D特征体中找邻域voxel,可以聚类voxels。如图所示:

在一个距离范围寻找K个voxels,其中采用Manhattan距离,即

基于此,采用PointNet模块聚集邻域voxel features,记gi是grid points,vi是voxels,那么最后特征如同下面公式计算:

作者只是从3D 主干网络的最后两级提取voxel特征,每一级的曼哈顿距离门限不同,最后把不同级和尺度的特征拼接在一起得到RoI特征。

不过,这个聚集特征过程计算量仍然很大,作者采用了加速方法,如图所示:

网络架构设计基本从SECOND和PV-RCNN过来的。推理中,RPN中IoU门限=0.7做NMS,得到top-100 region proposals进入detection head;细化后NMS再次应用,这里IoU门限=0.1去除冗余。

训练中loss函数如下:

RPN的损失项

其中分类采用Focal loss,box回归采用Huber loss。

先定义一个confidence分支和IoU相关的数值

框回归分支也采用Huber loss。这样,检测头的损失项

实验结果如下:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档