UnDeepVO:基于非监督深度学习的单目视觉里程计

泡泡图灵智库,带你精读机器人顶级会议文章

标题:UnDeepVO:Monocular Visual Odometry through Unsupervised Deep Learning

作者:Ruihao Li,Sen Wang,Zhiqiang Long and Dongbing Gu

来源:ICRA18

编译:尹双双

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

泡泡图灵智库栏目,是泡泡一分钟的深入解读版,添加了论文的主要贡献、算法流程和主要结果分析等内容,希望给泡芙们带来全新的感受。

摘要

大家好,今天为大家带来的文章是——UnDeepVo:一种基于非监督深度学习的单目视觉里程计,该文章收录于ICRA18。本文提出的方法主要有2个突出的特点:一是非监督的深度学习策略,二是能得到绝对的尺度。特别地,我们利用立体影像对获取的尺度来训练UnDeepVo,但用连续的单目影像测试,UnDeepVo所以是一个单目的系统。训练网络的损失函数是基于时空密集数据定义的。系统概略图如图1,我们用KITTI数据集进行了实验,并表示本文发方法在位置精度上优于其他单目视觉里程计方法。

主要贡献

1. 利用空间和时间的几何约束,用非监督的方式实现了真实尺度的单目视觉里程计。

2.不仅估计了相机位姿,还在训练过程中从立体像对得到了真实尺度的深度图。

3.我们用KITTI数据库评估了本文的VO系统,结果表示UnDeepVO的效果在单目方法中是最先进的。

因为UnDeepVo只需要立体像对来进行训练而不用标记的数据库,所以可以用数量非常大的无标记数据集来提高训练效果。

图1 UnDeepVO系统概略图。在用无标志的立体像对训练之后,UnDeepVO 可以对单目影像同时实现视觉里程计和深度估计。6-DoF位姿和深度参数尺度不需要进行尺度后处理。

算法流程

图2. UnDeepVO系统架构

系统由一个位姿估计器和一个深度估计器组成,如图2所示,它们的输入都是连续的单目影像,分别输出6-DoF的位姿值和深度值。

位姿估计器是一个基于VGG的卷积神经网络,输入两张序列单目影像来预测它们之间6个自由度的转换。因为旋转(欧拉角表示)具有较强的非线性,比平移更加难训练,所以为了更好地用非监督学习训练,我们在最后一个卷积层后用两个有完全连接层的单独集来分开平移和旋转参数。这样我们就可以引入权重归一化旋转和平移,从而得到更好的预测值。

深度估计器主要是基于编码-解码来得到密集的深度图。不同于利用影像视差(逆深度)的深度估计方法,本文采用直接预测深度图的方式来训练,因为训练轨迹报告显示这样做会使得系统更容易收敛。

图3 UnDeepVO的训练方法。位姿估计器和深度估计器把立体像对当作输入来分别得到位姿值和深度图。基于原始的RGB影像,估计的深度图和位姿值来计算空间和时间上的损失函数。

大多数单目VO的方法都采用一个预定义的尺度,本文采用图3所示的训练策略来得到绝对的尺度信息。在训练中,我们给神经网输入左右影像来分别得到左右序列的位姿值和深度值,然后用输入的立体像对,估计的深度图和位姿值,再利用立体影像序列的空间和时间上几何几何一致性来构建损失函数。空间上的几何一致性是指左右影像对上同名点的重投影几何约束,时间上的几何一致性即指单目序列影像之间同名点的重投影几何约束。最后一起最小化这些限制下的损失函数,UNDeepVO能以端对端的方法实现真实尺度的位姿和深度估计。

主要结果

文章结果主要针对上述三点贡献:

1. 利用空间和时间的几何约束,用非监督的方式实现了真实尺度的单目视觉里程计。

图4 序列02,05,07和08的轨迹。因为SfMLearner不能恢复尺度信息,所以用7参数转换进行后处理。UnDeepVO和SFMLearner使用大小为416x128的影像,而VISO2-M是1242x376。

表1.VO结果,所有的方法都没有用闭环检测。

图5.没有真实轨迹信息的KITTI影像序列的VO结果。单目的VISO2-M和双目VISO2-S的轨迹图都绘制在上图,可以看出我们UNDeepVO的效果和VISO2-S相近。

2.不仅估计了相机位姿,还在训练过程中从立体像对得到了真实尺度的深度图。

图6 本文深度估计器得到的深度图。

表2.基于KITTI数据集的深度估计结果

Abstract—We propose a novel monocular visual odometry(VO) system called UnDeepVO in this paper. UnDeepVO isable to estimate the 6-DoF pose of a monocular camera andthe depth of its view by using deep neural networks. Thereare two salient features of the proposed UnDeepVO: one isthe unsupervised deep learning scheme, and the other is theabsolute scale recovery. Specifically, we train UnDeepVO by

using stereo image pairs to recover the scale but test it byusing consecutive monocular images. Thus, UnDeepVO is amonocular system. The loss function defined for training thenetworks is based on spatial and temporal dense information. Asystem overview is shown in Fig. 1. The experiments on KITTIdataset show our UnDeepVO outperforms other monocular VOmethods in terms of pose accuracy.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180515A05MHK00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券