专栏首页CVer300米远程深度估计!港科大提出自动驾驶深度感知新技术,远超现有雷达|CVPR2020

300米远程深度估计!港科大提出自动驾驶深度感知新技术,远超现有雷达|CVPR2020

本文转载自:极市平台

arxiv链接:https://arxiv.org/abs/2004.03048 project主页:https://kai-46.github.io/DepthSensing/ slides:https://kai-46.github.io/DepthSensing/my_files/slides.pdf video:https://youtu.be/QXI5JQZ2JE0

输入

输出深度图

图像中的场景距离大约两三百米。本文算法可以得到一个上千万像素的深度图。

深度感知技术是自动驾驶技术的一个重要模块,当前的解决方案主要分为主动式的激光雷达和被动式的立体相机两种。这两种方案的优缺点已被众多科技媒体、学术文章等广为讨论,在此不做赘述。在这个工作中,作者尝试解决“自动驾驶场景下数百米的远程深度估计”这个尚未被大量探索的问题。

细看当前研究者常用的Kitti、Waymo等自动驾驶数据集,不难发现,它们的深度数据均由车载激光雷达采集,最大量程只有80米左右。80米左右的量程或许可以满足低速无人驾驶的应用场景,但是对于无人驾驶卡车在高速公路行驶这类的场景显得有点不足,原因在于,如果我们假设卡车车速是80 km/h,行驶80米的距离其实只需要3.6秒的时间,这对于无人驾驶技术的安全性构成了挑战。诚然目前市面上的一些高端激光雷达声称能够达到300米的有效测量距离,但其价格、功耗、远处物体的点云很稀疏等问题均不可规避。另一方面,现有的立体相机方案由于相机焦距不够大而看不清远处物体,进而也不能达到远程深度估计的要求。

作为计算机视觉研究者,作者决定从相机角度着手解决这个问题,而非改进激光雷达。首当其冲的一个问题是:为了看清远处物体,长焦镜头不可或缺,但是这种增大立体相机焦距的方法是否能直接解决问题了呢?答案是否定的。经过分析可以发现,这里面的一个难点在于:立体相机的最大baseline受限于车辆的宽度(通常在2米左右)。

对于300米远的3D点而言,2米的baseline可谓是超级小,小到这个3D点到左、右相机中心的两条光线的夹角(triangulation angle)只有0.382度。如下图所示,极小的triangulation angle带来的后果是深度估计的精度对于相机姿态中的微小变化异常敏感:如果姿态中有0.1度的误差,那么估计的深度值的相对误差就达到了不可接受的26.2%左右,这意味着在300米深度处会产生大约78.6米的绝对误差。

在无人驾驶车辆行驶过程中,相机姿态当中的微小变化几乎是难以避免的。对相机姿态要求的这种高精度也已远超IMU、Gimbal等硬件所能达到的精度。那么使用Structure-from-Motion (以下简称SfM)这种算法是否可以直接从图片中恢复高精度相机姿态呢?很不幸的是,答案也是否定的,这是因为SfM算法所求解的优化问题在远程深度估计问题下存在ambiguity,简单来说,就是解不是唯一的。早年的文章把这种现象成为bas-relief ambiguity,如下图的仿真实验所示,SfM恢复的相机姿态相对于真实值有0.207度的误差,同时恢复的3D点的位置(红色)严重偏离了它们真实的位置(蓝色)。

为此,作者提出了一个如下图所示的由三个长焦相机构成的新相机系统(两个放在车头,一个放在车尾),以及配套的深度估计算法。本文的解决方案绕过了对高精度相机姿态的要求,只需要知道三个相机的焦距,以及相机之间的距离。算法以三个相机同一时刻捕捉到的图片作为输入,输出left相机图片对应的深度图。整个系统流程图如下图所示。

简单来说,本文的算法流程是先对左右相机的图片做uncalibrated pseudo-rectification,这一个过程不依赖于相机姿态,只需要图片之间的sparse feature matches即可实现;然后用标准的stereo matching算法去估计disparity;分析表明这个估计的disparity相对于真实的disparity存在一个未知的全局偏移。算法的最后一步是利用left相机和back相机之间的近大远小现象来估计这个未知的全局偏移,并将修正后的disparity转化为深度

具体点来说,第一步中的uncalibrated pseudo-rectification基于的原理是当相机焦距很大时,相机的透视投影效应会变弱,退化成弱正交投影,本文的分析显示在这种情形下,我们可以直接通过图片之间的sparse feature matches求接出两个仿射变换来达到对图片的pseudo-rectification;这种pseudo-rectification具有不依赖相机姿态的优点,但是会带来第二步估计的disparity中存在未知的全局偏移这一后果;为了去除这个全局偏移,本质上我们需要知道至少一个3D点的绝对深度值(同时这个3D点在第二步估计的disparity也要合理),在本文的方法中,这一目标是通过利用前后相机之间的近大远小现象实现的,即:两个具有同一深度的3D点,它们投影到后面相机中的像素之间距离要比投影到前面相机中的像素之间距离来得小,并且从距离之间的比例可以反推出3D点的深度。(具体的算法细节可以参考论文)

作者在仿真数据集和采集的现实数据集验证了算法。对于仿真数据集上,本文限制相机系统的baseline/depth ratio在2/300左右(对应车宽2米,物体在300米这样的现实设定),同时对相机姿态做随机的小扰动。结果显示,本文的算法估计出来的深度能够达到3%的相对误差,远超其他算法

由于这个问题的现实数据采集难度很高,本文做了资源允许情况下的最大力度验证。本文把一个配备了长焦镜头和三脚架的相机依次放到相机系统示意图中的三个位置,并且用激光测距仪测量了left相机中心点的深度作为真实值。实验结果显示,本文的方法得到的深度(300.8米)跟激光测距仪测量的值(320米)吻合得很好(如下图2所示),并且我们的方法输出的是深度图,而非激光测距仪给出的单点深度。

综上所述,在这个工作中,作者对于无人驾驶场景下的远距离(300米左右)深度估计做了一些探索,并提出了一个基于相机的解决方案。因为本文方法基于相机,所以具有成本小、功耗低的特点(note:作者验证原型系统时使用的易用型消费者相机Nikon P1000成本并不低,实际应用中使用工业相机和镜头来搭建这个系统的话可以大幅降低成本,同时相机尺寸也可以缩小很多)。匹配本文提出的深度估计算法,整个系统的完整参数(包括完整的相机内参和外参)并不需要提前全部calibrate好,同时该套系统对于车辆系统过程中的相机姿态颤动更加鲁棒。

由于资源的限制,本文并未能在真实的自动驾驶场景上验证本文提出的原型系统,是一个遗憾;无人驾驶场景下的远距离深度估计问题也欠缺公开的大规模数据集来供深度学习研究者使用。这些都是未来可以研究探索的方向。

作者介绍

张凯,Cornell二年级博士生,博士导师Noah Snavely,本科毕业于清华大学,主要研究领域:3D vision。

本文分享自微信公众号 - CVer(CVerNews)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 盘点性能最强的One-stage目标检测算法

    要知道衡量目标检测最重要的两个性能就是 精度和速度,特指 mAP 和 FPS。其实现在很多论文要么强调 mAP 很高,要么就是强调 mAP 和 FPS 之间 T...

    Amusi
  • 100+AI 算法面经合集(谷歌/微软/BAT/头条/京东/商汤/旷视/网易/美团/大疆等公司)

    CVer 之前推送了很多渣硕(巨佬)和菜鸡(大佬)的算法面经(实习和校招),他们面试过的公司不乏谷歌、微软亚洲研究院、BAT、京东、字节跳动、商汤、旷视和大疆等...

    Amusi
  • 中科院和京东AI研究院提出:改进SRN人脸检测算法,目前业界最强!

    今天po的改进SRN人脸检测算法(Improved Selective Refinement Network for Face Detection),其刚刚击败...

    Amusi
  • 工业相机 效用几何

    文/李智勇,堡盟电子 如今,人工智能被称为经济发展的新引擎,而做为人工智能核心技术之一的视觉技术也的确火了,火到凡是和工业自动化相关的企业,如果不搞点视觉技术或...

    企鹅号小编
  • 34. 光场--捕获场景中所有的光线

    在27. HDR - 高动态范围成像中,我向你介绍了把多个不同曝光程度的有限动态范围的图像融合起来,我们可以得到高动态范围的图像

    HawkWang
  • Facebook Surround360 学习笔记--(3)硬件设计要点

    如果自己想模仿surround360设计一款3D360°的设备,硬件选择有什么要注意的吗? 圆盘设计有要求吗? 回答:有要求,圆盘半径r,侧面相机数目n,侧...

    用户1150922
  • AAAI 2020 | 北大&上交大:姿态辅助下的多相机协作实现主动目标追踪

    2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评...

    机器之心
  • 【简单的CV】1.5 相机控制

    相机技术由胶片向图像传感器的进化,极大的推动了摄像的普及。图像的载体由胶卷转变为计算机存储这也为计算器视觉的形成做了很重要的铺垫。

    EdenChen
  • Bugzilla零日漏洞曝光 安恒信息紧急预警

    Bug跟踪系统Bugzilla近日爆出零日漏洞(CVE编号:cve-2014-1572),允许任何用户浏览提交到Bugzilla系统的未修正且尚未公开的相关数据...

    安恒信息
  • 数据的未来,用20%的流量创造80%的价值

    过去,是用渠道换流量的时代,大部分的公司都将流量增长作为主要的商业模式来获取用户,运营中,基本只关注用户数、日活、月活、留存用户数等概要性数据。但中国互联网的人...

    灯塔大数据

扫码关注云+社区

领取腾讯云代金券