

作者丨黄浴@知乎
来源丨https://zhuanlan.zhihu.com/p/341180239
编辑丨3D视觉工坊

arXiv12月19号苏黎世ETH的上传论文“Three Ways to Improve Semantic Segmentation with Self-Supervised Depth Estimation“:

分割需要标注数据的工作很麻烦。本文是semi-supervised方法,其中采用自监督的单目深度估计结果来增强,即auxiliary task。(1)深度估计的特征学习知识迁移到语义分割任务;(2)采用的data augmentation很强,即DepthMix,将标记和图像基于景物结构进行混合;(3)depth特征的diversity和“学生-老师”框架的depth学习难度,有助于选择有用特征做语义分割的标注,即Unsupervised Data Selection for Annotation,其选择的标准是diversity和uncertainty。
作者给出开源代码:https://github.com/lhoyer/improving_segmentation_with_selfsupervised_depth
Active learning是有助于减少标注负担的方法。一是uncertainty-based,另一个是diversity-based。
如下是非监督数据选择的算法伪代码:

diversity sampling公式:

uncertainty sampling公式:


DepthMix的公式:两幅图像加一个来自depth的Mask(即近目标能够遮挡远目标)


整个半监督的语义分割框架如图:其中SDE(selfsupervised depth estimation)作为辅助任务。LD是SDE的depth loss函数项,LF是特征距离项(避免特征遗忘),而segmentation的训练是基于pixel-wise cross entropy函数Lce。

depth预训练的loss函数:



注:图中的depth decoder得到的fD,可做semantic decoder输出fS的初始化。
无标注图像的学习,是通过一个mean teacher算法产生伪标记,即对语义分割模型的weight采用exponential moving average,类似temporal ensemble


整个标记样本和伪标记样本做分割训练的loss函数是

加入DepthMix样本S‘即把标注和伪标注的样本组合,取代非标注样本,新的loss函数即

实验结果:


本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。