首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于多视角3D物体检测网络

Momenta公号现推出

CVPR 2017精彩看点系列总结

每日一篇推送,每天收获一点

炎炎夏日,Momenta Paper Reading依旧与你同在

在刚刚结束的CVPR 2017上,来自Momenta的十余位研发人员亲赴夏威夷,见证这场学术盛会。与会期间,高级研究员们与众多学术大牛面对面交流,收获良多。回国后纷纷将学术心得整理成文,以飨读者。

本期带来分享的是Momenta高级研究员贾思博,他将为大家解读关于“自动驾驶的多视角3D物体检测网络”的论文。

Multi-View 3D Object Detection Network for Autonomous Driving论文解读

这篇文章已经发布了半年多,可能不少读者已经比较熟悉了。它提出了一种新的融合视觉与3D激光雷达的信息来做车辆检测的框架。摄像头与激光雷达是自动驾驶车辆感知周围环境所经常使用的两种传感器,但之前车辆检测算法大多局限在研究单一传感器的方法上:对摄像头获取的单目图像,进行2D检测并根据多种视觉线索推测3D信息;对激光雷达生成的点云,在空间中进行聚类等分析,或者直接将点云投影到2D平面送入深度神经网络进行物体检测与识别。已有的一些融合两种传感器的方法,也往往是对两种传感器获取的信息分别进行识别得到的结果做融合,并不能显著提高检测率与3D预测精度。而本文则使用一个end to end的网络深度整合了视觉与3D点云的数据,以期获得更好的效果。

网络的总体结构如上图所示。整个网络使用了3种输入:

(1)激光雷达点云的俯视图

(2)激光雷达点云的前视图(包含深度信息)

(3)前视摄像头的图像输入

三个网络分别通过独立的CNN得到各自的特征(Feature map)。接下来,使用俯视图的特征生成推测的3D物体框(3D object proposal),并将推测的框投影到三个输入对应的坐标系中,以便取出对应位置的特征(ROI pooling)。之后特征经过一个深度融合的网络结构,进行最后的分类与3D框回归工作,得到最后的检测结果。总体上沿用了Faster RCNN的检测框架,但是在输入、proposal的形式以及Fast RCNN网络上做了较大的改动,以实现视觉与激光点云的信息融合。

作者认为,采用这种输入形式的原因是希望尽可能利用信息最全面的3D点云信息来生成3D proposal,以便于同时得到其他输入空间下的proposal。对于激光雷达得到的3D点云,作者设计了3种形式的俯视图用来作为网络的输入,如下图所示。图中每个像素代表俯视视角下0.1m*0.1m范围内的信息。左侧一系列图片中每个像素代表了点云在此范围内的最大高度,并把整个点云按高度区间划分开,得到多张图片。中间一幅图每个像素代表此范围内点云密度信息。右边一幅图每个像素代表范围内最高处点的反射强度信息。如此一来便将复杂的点云信息转化为一系列二维输入。前视的点云也使用了类似的描述方式。

除了利用点云生成3D proposal的方式,文章的另一特点是融合多输入的网络结构和训练方式。对于ROI pooling之后的特征,网络选择在每层卷积之后都进行逐元素平均(element-wise average)来进行融合,同时使用辅助损失函数(auxiliary loss)来在训练融合特征的同时分别训练三路特征。此外还使用类似dropout的思想设计了随机丢弃通路(drop-path),提高网络的泛化能力。

这一方法在KITTI的3D定位和3D检测项目的官方评测中显著优于现有的最佳水平,同时在2D检测项目中也显著优于其他使用激光雷达的检测方法。这种新颖的融合训练框架为自动驾驶的算法研发提供了新的思路。

Q&A:

Q:在Fast RCNN阶段为什么选择回归3D框顶点的8个坐标点,而不是车辆的位置、尺寸与角度?

A:作者认为,直接回归3D框坐标,可以更好地对应俯视图以及前视图feature map的空间关系。实际上作者也进行了实验,回归3D框顶点的8个点与回归3D参数相比,在2D检测上的精度(AP)更高。在应用算法时,不需要对8个点实际是一个3D立方体做额外的后处理,算法的直接输出已经是一个合理的3D立方体坐标。

Q:对于使用3路不同input与只使用其中2路或1路input的实验,训练/测试方案是怎样的?

A:对于缺少输入的情形(如只用激光雷达俯视加视觉,或只用视觉),作者都是使用这种输入方案重新训练模型并测试的。作者没有尝试过用3路input训练的模型但是用2路input来测试的效果。但是由于训练中加入了drop path,即随机只使用一路input,或在某层进行element-wise mean时不加入某路input的输出,故输出可能也是有效的。

Q:这种激光雷达+视觉的方案是不是与硬件(如相机与激光雷达的外参等)绑定的?

A:作者认为,网络中从3D proposal生成各个view的proposal过程中依赖硬件外参。如果外参有了微小改动,可能可以进行重新标定后调整生成proposal的参数,并没有进行相关的实验。但是如果硬件外参改变过大,以至于影响了输入数据的分布情况,那么肯定就不能复用模型了。

Momenta CVPR干货系列:

敬请期待,后续还有解读来袭

Momenta,打造自动驾驶大脑。

Momenta致力于打造自动驾驶大脑,核心技术是基于深度学习的环境感知、高精度地图、驾驶决策算法。产品包括不同级别的自动驾驶方案,以及衍生出的大数据服务。

Momenta有世界知名的深度学习专家,图像识别领域先进的框架Faster R-CNN和ResNet的作者, ImageNet 2015、ImageNet 2017、MS COCO Challenge 2015等多项比赛冠军。团队来源于清华大学、麻省理工学院、微软亚洲研究院等,有深厚的技术积累和极强的技术原创力。

编辑标题:“GH+姓名+职位”

做你自己的伯乐,来实习,拿4096现金大奖!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190218A0MFQU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券