前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自动驾驶中单目摄像头检测输出3-D边界框的方法概述

自动驾驶中单目摄像头检测输出3-D边界框的方法概述

作者头像
点云PCL博主
发布2019-07-30 16:21:57
2.5K0
发布2019-07-30 16:21:57
举报
文章被收录于专栏:点云PCL点云PCL

本文是来自黄浴博士的知乎专栏,主要讲述了在自动驾驶中单目摄像头检测输出3D边界框的相关论文分享。其中涉及的论文都是值得相关研究者一睹为快。本文已获得黄浴博士授权,未经原作者许可不得转载。该文章知乎地址为https://zhuanlan.zhihu.com/p/57029694。在此群主总结整理分享给大家。同时希望大家能够积极参与分享。

前提介绍

单目图像估计3-D检测框是目前自动驾驶研发流行的,单纯的2-D检测框无法在3-D空间去做规划控制,去年百度Apollo发布2.5版本特意提到这方面的解决方案。

这里分析一下公开发表的有关论文,特别是近期的深度学习CNN框架,供参考。其实最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授给的PPT demo。

结果Tesla和Nvidia全都这么干了。

注:关于单目镜头估计物体的姿态有不少论文,也是跟这个课题相关的,一些深度学习的方法也不错,不过不是本文的重点,在此不做重复介绍。

1

3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images,9,2018

来自UC San Diego的论文。简单讲,该方法提出估计center of bottom face of 3D bounding box (CBF) 来解决2-D图像得到3-D边框的问题,为加速也采用了LUT。同时估计的还有物体的大小尺寸以及姿态。

下图解释了他们采用key point预测的方法而不是传统2-D边框底边中心去推理3-D的位置。

这是论文的3-D边框估计的算法结构:

2

3D Bounding Box Estimation Using Deep Learning and Geometry,CVPR,2017

该文章是是百度Apollo引用的方法:

首先估计物体3-D朝向,然后回归物体尺寸和3-D中心,最后得到物体的整个姿态和位置。下图是2-D和3-D边框的对应关系图:

论文提出一种MultiBin方法求解物体朝向(相邻bin之间可以重叠一部分),CNN模型如下图:

朝向的局部和全局的关系如下所示:

总之,该方法利用了几何约束从2-D边框来估计3-D边框,其中朝向估计很关键。一些结果见下图:

3

Joint Monocular 3D Vehicle Detection and Tracking, 11,2018

该方法是对上面工作的推广,增加了跟踪模块,提高了稳定性。

这是算法的流程图:在RPN预测3-D中心的2-D投影位置,其中采用ROIalign而不是ROIpool减小了misalignment。每个求解3-D边框的ROI包括以下几项:2d Bbox, 3d box 中心投影, confidence score 和 对应特征向量。

其他跟踪部分就不重点提了,下图是一些结果展示:

下图解释了2-D边框中心和3-D边框中心的不同:

4

Orthographic Feature Transform for Monocular 3D Object Detection,11,2018

本文提出一个orthographic feature transform(OFT)用于解决2-D图像推理物体3-D边框的问题,原理如下图:

在一个深度学习框架下,该模块可以把图像特征图映射到正交鸟瞰图,如下图所示,输入到一个top down network进行推理。

结果就不讨论了,细节在论文里,群主PS:有兴趣的小伙伴可以就本文涉及到的文章整理上传至我们的github上,并可以后台留言给群主,加入我们论文共读的分享群,与其他小伙伴一起阅读相关论文。整理出更多的细节分享给大家。

5

Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018

这是去年CVPR‘18的论文,下面是算法结构: 采用两步法,加了一个估计深度图的模型,结果送入RPN模块,比较奢侈的做法,后面还将视差图转换成点云,进入detection模块。

下图是该论文展示的结果。说明研究者们对对单目估计深度图/视差图还是很有信心的。

6

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018

改文章是微软的一篇论文,下图是算法框图:提出instance depth estimation (IDE),不是图像的深度图,可以直接估计物体3-D边框的深度,还是采用ROIalign取代ROIpool;包括4个模块,即2d detection(棕色), instance depth estimation(绿色), 3d location estimation(蓝色) 和 local corner regression(黄色)。

估计Instance depth的模型结构:

下图示意图告诉我们3-D边框的图像定位关系:

Instance depth的概念的解释如下图,的确是比较节俭的做法:

结果展示:

7

Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019

Face++和UCLA的最新论文,算法框图见下图:该方法不光用了深度估计,还借用了路面假设作为约束;另外,采用morphable wireframe model,不过为避免landmark敏感,对3-D边框做了模糊表示;除此之外,还有一个模块叫3D-2D consistency。

这是3D-2D consistency的框图介绍:包括几个部分 2D Bounding box,2D Landmark,3D Orientation 和 scale hypotheses。

8

CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018

从2-D边框和消失点产生3-D cuboid proposals,随后在单目视觉SLAM框架中优化,如下图:

这是产生Proposals的方法:根据可视的面数目将Cuboids分成3类

论文提出一种MultiBin方法求解物体朝向(相邻bin之间可以重叠一部分),CNN模型如下图:

特征点的相关性处理方法采用物体点为先,景物点为后,如图:绿色点是map上的,其他颜色的点属于物体。

9

BoxCars:Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance,CVPR,2016

3D 物体边框是从监控视频 (比车载视频容易些)的2-D边框得到的,如图所示:利用了轮廓信息和姿态信息。

其实它的方法是把3-D边框各个面拆开,如图:然后输入到CNN模型推理3-D信息。

这个CNN模型用来估计沿着消失点的方向:

输出的结果如图所示:

10

Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis),2017

一个博士论文。采用FCN模型训练得到2-D和3-D边框,如图:定义3-D边框的3个方向,即front-bottom, left-bottom, front-left。

3D边框定义如下:8个角点,6个面。

也是路面假设,这是得到3-D边框的关键,下面是图像逆投影公式:

根据逆投影和路面假设,可以先得到3-D边框在路面的位置。下图是3-D边框投影到路面的效果:平行四边形,然后被推理出实际3D边框底部的正方形。

加上估计的物体高度,就得到3-D边框。首先,先估算路面,算法如下:

利用前面提到的,bottom-left line 作为frontal plane 的法向量,然后用front-bottom-left 的点计算front plane;找到frontal plane 和逆投影的交点即得到顶点位置,这样高度就得到了。

一些结果展示:包括顶视图

11

Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes,CVPR,2015

NEC Lab早些的工作,给出的系统框图如下:将SFM和检测结合起来。

3-D定位物体是有假设路面的前提,首先看坐标系的定义如下图:

而2-D边框的底部可以通过路面假设反投到3-D空间:

下图是物体的SFM部分:

整个定位输出如图这样:其中右下角顶视图有激光雷达ground truth显示为红色。

12

Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes,CVPR,2012

更早的论文,系统示意图如下:有路面假设的景物模型,有遮挡推理模型,有跟踪,有分割;HMM做跟踪算法,MCMC方法做推理。

下图是路面假设下的车载坐标系和世界坐标系的关系:

这里介绍的是车载摄像头的旋转:

目标距离的估计类似Mobileye,如图:

群主PS:该论文提到的目标距离估计类似Mobileye的文章恰好我有看到文章题目是《Vision-based ACC with a Single Camera: Bounds on Range and Range Rate Accuracy 》,感兴趣的小伙伴,可以阅读一下。

以上就是文章的全部内容了,文章中涉及的论文较多,希望有兴趣的小伙伴可以将文章整理上传至我们的github组群中,与我们一起阅读!还未加入组群的小伙伴可以在文章末尾留下github邮箱,邀请进组群与我一起管理并分享。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档