首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文解读——无监督深度估计

深度估计是计算机视觉中一个相对冷门,但有很重要的应用价值的分支。它在机器人自动导航、自动驾驶、VR、3D重构等任务中发挥了重要的作用。通常的视觉任务,诸如目标检测、分割、动作识别等都采用CNN监督学习的方法,且都达到了很好的效果。但监督学习有一个主要的缺点是它需要预先收集大量的标注好的训练数据。而对于深度估计任务而言,想要收集大量标注好深度的图像是非常困难的,但大量未标注的图像数据却很容易获取。因此,无监督学习方法在深度估计领域有重要的作用。

模型

本文的模型结构如图所示。首先是学生模型Gs,输入右图,输出深度图。利用输出的深度图可以得到初步预测的左图。使用估计的左图作为训练数据投入Gb中,输出深度图,利用此时输出的深度图,我们可以得到重构后的右图,这便形成了一个循环结构。

这种循环结构有三个主要的优点。一、在训练时,Gb与Gs网络可以共享权重,这意味着预测出的视差图是从原图与第一次的合成图中获取信息,某种意义上来说,这起到了数据增广的作用。二、为了正确合成出原来的右图,我们首先需要获得一个较为正确的左图估计,这对之前生成的dl深度图起到了一个较强的全局约束,它不同于传统的局部的L1,L2范数,因此能起到很好的效果。三、通过对比合成后的右图与原来的右图,我们可以计算出周期不一致程度(cycle inconsistency), 一致的像素位置说明在这一点的深度估计值正确,反之则不正确。然而,由于原左图和右图的空间位置有一个较小的偏移,所以在空间物体的边缘部分必然会出现不一致的情况(例如左眼看不到的边缘部分右眼可以看到)。因此,利用好这一点,会极大的帮助我们建立一个精细化的深度估计图。

通过将得到的不一致信息投入不一致感知网络Gi中(Inconsistency-aware Network)进行训练,输出一个更加精细化的网络(对于先前深度网络中没有被刻画出的边缘信息进行细节化的预测)。然后将Gi与Gb作为教师模型,使用知识蒸馏将模型中的信息传递给学生模型,得到最终的输出结果。

模型效果:

可见教师模型(进行了细节化调优)相对于以前的研究而言有了比较大的提升,而蒸馏后的学生模型也有了提升。

总的来说,这个模型的关键是通过两次构建网络构成了一个循环,然后利用不一致的信息(本质上即是残差)进行学习,最后得到了优化很多的结果。这种残差学习的想法与ResNet,GBDT等经典模型有一定的相似点。可见在很多机器学习任务中,如果能有效的利用好残差信息,模型的效果可能会得到很大的提升。

References:

[1]. Pilzer, A., et al., Refine and Distill: Exploiting Cycle-Inconsistency and Knowledge Distillation for Unsupervised Monocular Depth Estimation. 2019.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191230A0PKZF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券