一种应用于高动态环境的基于深度学习图像增强技术的视觉里程计方法

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Learning-based Image Enhancement for Visual Odometry in ChallengingHDR Environments

作者:Ruben Gomez-Ojeda,Zichao Zhang, Javier Gonzalez-Jimenez,Davide Scaramuzza

来源:arXiv cs:CV 2018

播音员:堃堃

编译:皮燕燕

审核:杨小育

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是——一种应用于高动态环境的基于深度学习图像增强技术的视觉里程计方法,该文章发表于arXiv cs:CV 2018。

对于视觉里程计而言,主要开放挑战之一是极低照明条件或高动态范围(HDR)环境下的鲁棒性。处理上述情况的主要困难来自于传感器的局限性,以及由于视觉里程计中亮度恒定的假设导致无法成功跟踪特征点。文章从深度学习的角度来解决上述问题,为此文章首先微调深度神经网络,目的是获得视觉里程计(VO)序列的增强表示。然后,文章演示了如何插入长短期记忆以获得时间一致的序列,所做的估计依赖于先前的状态。然而,使用非常深的网络扩大了VO框架的计算负担; 因此,本文还提出了一种尺寸减小的卷积神经网络,使执行速度增快。最后,文章通过评估两种体系结构在几种最先进的VO算法(如ORB-SLAM和DSO)中生成的序列来验证增强的表示。

有关演示方法的视频可在以下网站获得:https://youtu.be/NKx_zi975Fs。

主要贡献

主要贡献有:

1、提出了两种不同的深度网络,将一系列RGB图像转换为信息更丰富的图像,同时对照明、曝光时间、伽马校正等变化鲁棒性较高

2 、提出了一种多步骤训练策略,使得文章提出的DNN能够将训练的行为推广到HDR场景中或在极低照明条件下的全分辨率真实序列。

3 、展示了如何通过合并来自先前帧的时间信息,添加长短期存储(LSTM)层有助于在HDR序列中产生更稳定且噪声更小的结果。

算法流程

图1 文章采用的两种架构

如图1所示,在Caffe库中实现的体系结构由编码器,LSTM层和解码器组成。

A. 编码器

图1(a)所示,文章使用微调模型这种非常深的网络来估计VO。同时为了获得更快的性能,文章提出了一个更小的,更深的CNN如图1(b)所示。

B. 长短期存储器 (LSTM)

文章在微调网络中的编码器和解码器部分之间引入了两个LSTM层,以便获得更稳定、更好的里程计估计结果。

C. 解码器

文章将灰度输入图像和解码器输出连接成2通道图像,然后应用具有1×1内核和一个通道的最终卷积滤波器以获得更逼真的图像。

主要结果

A. 梯度检验

对于VO而言,计算图像的梯度较重要,因为在视觉里程计中大多数方法基于边缘信息。图2显示了估计的图像以及输出梯度与来自不同数据集中训练模型的输入、输出图像之间的梯度差异。

图2 来自训练模型的输出和从评估序列中提取的一些挑战性样本中的梯度图像之间的差异

B. 使用最先进的VO算法进行评估

表1显示了上述所有序列中ORB-SLAM的结果。首先,文章提出的方法在困难的序列(1-light和switch)中明显优于原始输入和标准图像处理方法,同时在容易的序列中保持类似的性能(2-lights和 3-lights)。 对于不同的网络,结果表示FT-LSTM在困难序列中的更好性能,尽管减少的方法Small-CNN在切换灯的场景中具有良好的性能。

表2显示了用DSO获得的结果。由于所有方法能够成功跟踪,文章省略了跟踪百分比。在准确性方面,简化方法Small-CNN性能良好。然而,它在明亮开关序列中的准确度更差,但它仍然与原始序列类似。

表1 ORB-SLAM算法的平均RMSE误差(第一行,由轨迹总长进行归一化的结果)和序列中未跟踪丢失的百分比(第二行)。

短划线意味着VO实验在未初始化的情况下失败。

表2 DSO平均RMSE误差。短划线表示VO实验失败

C. 计算代价

文章评估了CNN和LSTM网络的计算性能。表3显示了每种模型在不同分辨率下的结果。

表3每个网络的平均运行时和内存使用量

Abstract

One of the main open challenges in visual odometry(VO) is the robustness to difficult illumination conditions orhigh dynamic range (HDR) environments. The main difficultiesin these situations come from both the limitations of thesensors and the inability to perform a successful trackingof interest points because of the bold assumptions in VO,such as brightness constancy. We address this problem froma deep learning perspective, for which we first fine-tune adeep neural network with the purpose of obtaining enhancedrepresentations of the sequences for VO. Then, we demonstrate

how the insertion of long short term memory allows us to obtaintemporally consistent sequences, as the estimation depends on

previous states. However, the use of very deep networks enlargesthe computational burden of the VO framework; therefore, wealso propose a convolutional neural network of reduced size

capable of performing faster. Finally, we validate the enhancedrepresentations by evaluating the sequences produced by thetwo architectures in several state-of-art VO algorithms, such asORB-SLAM and DSO.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180821A06MK600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券