前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于多尺度神经网络和特征融合的SOTA单目深度估计

基于多尺度神经网络和特征融合的SOTA单目深度估计

作者头像
McGL
发布2021-07-07 09:52:08
2.2K2
发布2021-07-07 09:52:08
举报
文章被收录于专栏:PyVisionPyVision

单目深度估计的新 SOTA

论文: https://arxiv.org/pdf/2009.09934.pdf 代码: https://github.com/abhinavsagar/msnnff

单目图像的深度估计是计算机视觉中一个有挑战性的问题。在论文中,我们采用了一种新的网络结构,利用多尺度特征融合的方法来解决这个问题。我们的网络使用两个不同的块,第一个使用不同的滤波器大小的卷积并合并所有的单独特征图。第二个使用空洞卷积代替全连接层,从而减少计算并增加感受野。我们提出了一种新的损失函数来训练网络,该函数结合深度回归项、 SSIM 损失项和多项式逻辑损失项。我们在 Make 3D、 NYU Depth V2 和 Kitti 数据集上训练网络,并使用标准评估指标进行测试,这些指标包括 RMSE 损失和 SILog 损失。我们的网络超过了之前最先进的方法,同时参数更少。

引言

基于神经网络的深度学习已经成功地解决了计算机视觉领域的一系列问题。使自动驾驶成为现实需要解决感知问题。其中涉及到很多子任务,如目标检测、实例分割、深度估计、场景理解等。神经网络试图模仿人类大脑通过数据学习而不需要明确编程。在这个工作中,我们尝试解决深度估计问题,特别是在自动驾驶的背景下。

深度估计是计算机视觉中一个重要而又复杂的问题。这需要学习一个从输入图像计算深度图的函数。人类天生就有这种能力,因为他们的大脑能够通过利用光照、阴影、透视和不同大小物体的存在等信息来理解场景。对于人类来说,从一张图片推断物体的距离是相当容易的,然而这项任务对于计算机来说相当具有挑战性。

传统上立体摄像头被用在基于深度图的 SLAM 系统中。然而使用单目摄像头有低功耗、轻便和便宜的优点。因此似乎是一种更好的选择。历史上,深度估计主要是使用立体摄像头解决。最近流行使用一系列卷积网络结构, 从单张图像或单目摄像头来解决深度估计问题。该问题被归结为回归问题,采用 log 空间中的 MSE 作为损失函数。

重点

  • 我们为单目深度估计提出了一种新颖的端到端可训练网络。
  • 我们介绍了网络结构、训练细节、损失函数和消融研究。
  • 在 Make3D Range Image Data、 NYU Depth Dataset V2 和 Kitti Dataset 数据集上,我们的网络表现优于以前的 SOTA 网络。

数据集

以下数据集用于训练和测试我们的网络:

  1. Make3D Range Image Data — 这个数据集是第一个提出从单个图像推断深度图的数据集。它的每个图像都有相应的距离数据。数据集的样本包括室外场景、室内场景和合成对象。
  2. NYU Depth Dataset V2 — 这个数据集是由来自各种室内场景的视频序列组成,是用 RGB 和深度摄像机记录下来的。它有1449对稠密标记的对齐的 RGB 和深度图像。数据集中存在的目标已经用类 id 单独标记。官方划分包括249个训练场景和215个测试场景。图像分辨率为480×640。
  3. Kitti dataset — 这个庞大的数据集拥有超过93000张深度图,含相应的原始激光雷达扫描和 RGB 图像。这已经成为自动驾驶中使用单一图像实现深度估计的基准数据集。基准测试应用 Eigen 划分。训练集包括来自28个不同场景的大约22600帧,验证集包含888帧。测试集包含来自28个不同场景的697帧。图像分辨率为376×1242。

数据增强

数据增强是通过对数据集的样本单独执行操作手动增加数据集大小的过程。这使得网络具有更好的泛化能力,从而避免过拟合。数据增强已成功地用于深度估计。通过数据增强,训练数据增加了:

  • 缩放(Scale): 用随机数 s ∈[1,1.5] 对彩色图像进行比例缩放。
  • 旋转(Rotation): 颜色和深度图像都以随机度 r ∈[-5,5] 旋转。
  • 颜色抖动(Colour Jitter): 彩色图像的亮度、对比度和饱和度分别乘以 k ∈[0.6,1.4] 进行调整。
  • 颜色归一化(Colour Normalization): RGB 图像通过减去均值除以标准差进行归一化处理。
  • 翻转(Flips): 彩色和深度图像以概率50%水平翻转,并使用最近邻取样插值。

网络结构

任务是学习从一个彩色图像到相应的深度图的一个直接映射。我们的网络融合了对深度估计很重要的多尺度深度特征。我们的网络移除了所有增加大量的计算开销的全连接层。虽然全连接层在推理大范围的上下文信息中很重要,但是它仍然是不需要的。相反,我们使用空洞卷积,扩大了感受野,而不增加参数的数量。

该网络以一幅图像为输入,使用经过预训练的 ResNet 主干网进行特征提取。多尺度卷积分别采用1×1卷积、3×3卷积、5×5卷积和7×7卷积的组合。执行实例级的 concat 操作以合并特征图。这个多尺度块重复了4次。我们网络的感受野由于这一操作而大大增加,除了局部信息外,还能够捕捉到全局背景信息。

融合后的特征被传播到另一个多尺度块中。该块由普通卷积层和扩张率分别为2和4的空洞卷积层组成。这个块也要重复4次,并且使用实例级的 concat 操作来合并特征图。这项工作中使用的网络结构如图1所示:

图1: 此工作中使用的网络结构

多尺度融合

高层的神经元在卷积神经网络有更大的感受野。虽然低层神经元的感受野较小,但它包含了更多细节的信息。因此,为了得到更好的结果,我们将不同尺度的特征图结合起来。我们使用 concat 操作符连接高层和中层特征图。通过创建一个额外的信息流通路径,Skip 连接也有助于多尺度融合操作。

实现细节

ResNet 主干网被用作特征提取器,在 Imagenet 数据集上进行了训练。在所有的实验中,ADAM 优化器的学习率值为0.0001,动量参数值为0.9,权重衰减值为0.0004,批大小设置为8。该网络使用 SGD 在 NYU Depth v2 数据集上迭代 500K 次,在 Make3D 上迭代 100K次,在 Kitti 上迭代 300K 次。

结果

在 NYU v2 数据集上,模型预测与 ground truth 深度图比较,如图2所示:

图2: NYU v2 数据集上估计深度图的定性比较。颜色表示深度(红色表示远,蓝色表示近)。第一行: RGB 图像,第二行: Ground Truth 深度图,第三行: 我们提出的方法的结果。

在 Kitti 数据集上,模型预测与 ground truth 深度图比较,如图3所示:

图3: 我们的网络对测试图像1的输出预测。第一行: 输入图像,第二行: ground truth 深度图,第三行: 模型预测深度图。颜色表示深度(红色表示远,蓝色表示近)。

在 Kitti 数据集测试图像5上,模型预测和 ground truth 深度图的比较,如图4所示:

图4: 我们的网络在测试图像5上的输出预测。第一行: 输入图像,第二行: ground truth 深度图,第三行: 模型预测深度图。颜色表示深度(红色表示远,蓝色表示近)。我们的网络无法检测到车前的人,也无法检测到左下角的人。

结论

论文中提出了一种基于多尺度特征融合的单目深度估计网络结构。我们介绍了网络结构,训练细节,损失函数和使用的评估度量。我们使用数据集 Make 3D、 NYU Depth v 2 和 Kitti 来训练和测试我们的网络。我们的网络不仅在单目深度估计方面打败了以前最先进的方法,而且参数更少,适用于实时的应用。

References

  • I. Alhashim and P. Wonka (2018) High quality monocular depth estimation via transfer learning. arXiv preprint arXiv:1812.11941. Cited by: §3.2 .
  • L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille (2017a) Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.
  • A. Geiger, P. Lenz, C. Stiller, and R. Urtasun (2013) Vision meets robotics: the kitti dataset. Cited by: §3.1 .
  • I. Goodfellow, Y. Bengio, A. Courville, and Y. Bengio (2016) Deep learning. Vol. 1, MIT press Cambridge. Cited by: §1 .
  • K. Karsch, C. Liu, and S. B. Kang (2014) Depth transfer: depth extraction from video using non-parametric sampling.
  • F. Liu, C. Shen, G. Lin, and I. Reid (2015a) Learning depth from single monocular images using deep convolutional neural fields.
  • A. Rajagopalan, S. Chaudhuri, and U. Mudenagudi (2004) Depth estimation and image restoration using defocused stereo pairs.
  • A. Saxena, M. Sun, and A. Y. Ng (2008) Make3d: learning 3d scene structure from a single still image. Cited by: §2 ,§3.1 ,Table 1 ,Table 2 ,Table 3 .
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PyVision 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 重点
  • 数据集
  • 数据增强
  • 网络结构
  • 多尺度融合
  • 实现细节
  • 结果
  • 结论
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档