几何与学习的交汇点

通常来说,只给出一个2D图像,人类就能够毫不费力地推断出底层场景的丰富3D结构。由于从2D推断3D本身是一个模糊的任务(参见下面的左图),我们必须从过去的视觉经验中学习。但由于这些视觉体验仅包括3D世界的2D投影(如视网膜上接收的)。因此,我们的3D感知能力的学习信号可能来自世界不同视角之间的一致连接,这只能捕捉3D现实的部分证据。由此我们提出了建立三维预测系统的方法,可以以类似的方式学习。

图像可能是无限多的三维结构的投影(图片来自辛哈和阿德尔森)。

我们的视觉体验仅包含3D世界的2D投影。

我们的方法可以从2D投影中学习,并从单个图像预测形状(顶部)或深度(底部)。

如何从单一3D图像构建计算模型是计算机视觉领域一个长期存在的问题。早期的尝试,例如线条图中的“ 块世界”3D表面,是在利用几何线索的显式推理来优化3D结构。多年来,监督学习的结合使得通向实施的阶段性可以扩展到更现实的设置,并具有推断定性(例如Hoiem等)或定量的(例如Saxena等)3D展示层面。在现实环境中获得令人印象深刻的结果的趋势一直持续到现在的基于CNN的化身(例如Eigen&FergusWang et al。),但是以越来越依赖直接3D监督为代价,也使得这种范例相当具有限制性。如果实施的话的话,要大规模地获得这种监督是费力和费力的。相反,类似于人类的视觉系统,我们希望我们的计算系统可以做到在不需要3D监督的情况下学习3D预测。

为了实现这个目标,我们最近探索了另一种形式的监督:多视角观察,用于学习单视图3D。有趣的是,这些不同的作品不仅具有纳入多视角监督的目标,所采用的方法也遵循共同的原则。这些方法的统一基础是学习与几何之间的相互作用,其中学习系统所做的预测被鼓励与多视角观测“几何一致”。因此,几何学开始作为学习系统和多视点训练数据之间的桥梁。

通过几何一致性进行学习

我们的目标是学习一种Predictor PP(通常是一个神经网络),可以从一个2D图像推断出3D。在考虑的监督设置下,训练数据由来自不同观点的多个观察值组成。正如前面所提到的,几何是一个桥梁,可以使用训练数据来学习预测变量 PP. 这是因为我们以简洁的几何方程的形式精确地知道3D表示和相应的2D投影之间的关系。因此,我们可以训练PP来预测与关联的2D观测在几何上一致的 3D 模式。

为了说明训练过程,我们可以思考在Predictor PP和几何专家之间的一款简单游戏Verifier VV。我们给PP一个单一的形象,并预测3D模式小号SS,然后给予预测SS,并从不同的摄像机视角C观察世界的观察值O,使用几何方程来验证它们是否一致。我们要求P预测S将通过V执行的一致性检查。关键的是,因为P不知道OCPSVP(O,C)(O, C)将被用来验证它的预测,它将必须预测SS是一致的将所有可能的观测值(类似于未知的地面实况S_ {gt}S_{gt})。这使我们能够定义下面的训练算法,以仅使用多视图监督来学习3D-2D预测。

  • 从观点ÇC选择一个随机训练像II与有关观测ØO。
  • 预测S = P(I)S = P(I)。使用VV来检查(S,O,C)(S, O, C)
  • 更新PP,使用梯度下降,使SS更符合(O,C)(O, C)。
  • 重复,直到收敛。

采用多视图监视的单视图预测,最近的方法都遵循这个模板,不同之处在于所追求的三维预测的形式(例如深度或形状)以及所需的多视图观察的类型(例如彩色图像或前景蒙版)。我们现在看两篇推动多视角监督范式界限的论文。第一个利用经典的光线一致性公式来引入一个通用的验证器,它可以测量三维形状和不同种类的观测O之间的一致性O。第二个例子表明,甚至可以进一步放松所需的监督,并提出了一种从2D学习3D技术,甚至不需要摄像机视点CC进行训练的技术。

差分射线一致性

在我们最近的论文中,我们制定了验证者 VV来测量三维形状(表示为概率占用网格)和二维观察之间的一致性。我们的通用公式允许通过利用不同类型的多视点观察(例如前景蒙板,深度,彩色图像,语义等)作为监督来学习三维预测。

允许定义V的见解V是观察O中的每个像素O对应于具有一些相关信息的光线。然后,代替计算观测OO和形状S之间的几何一致性S,我们可以一次一个地考虑形状SS和射线r之间的一致性r。

上图描述了制定射线一致性成本的各个方面。a)预测的3D形状和我们测量一致性的样本射线。b)我们通过三维形状追踪射线,并计算事件概率 - 射线在其路径上不同点处终止的概率。c)我们可以测量每个射线终止事件与该射线可用信息的不一致性。d)通过将射线一致性成本定义为预期的事件成本,我们可以计算如何更新预测以提高一致性的梯度。在这个例子中,我们可以看到一个深度观察值O.O,我们的公式的一个优点是它允许通过简单地定义相应的事件成本函数来结合各种观察(彩色图像,前景掩模等)。

下面显示了使用我们的框架在不同设置下学习的3D-2D预测的结果。请注意,所有的可视化预测都是通过未经3D监督训练的预测器 P从单个RGB图像获得的。

使用多个深度图像作为训练监督的ShapeNet数据集上的结果。a)输入图像。b)预测的3D形状。

PASCAL VOC数据集的结果使用姿势和前景蒙板作为训练的监督。a)输入图像。b)预测的3D形状。

结果城市景观数据集使用深度,语义作为监督。a)输入图像。b)在模拟的向前运动下呈现的预测的3D形状。

ShapeNet数据集上的结果使用多个彩色图像作为训练形状和每体素颜色预测的监督。a)输入图像。b)预测的3D形状。

从未标记的视频学习深度和姿势

请注意,在上面的工作中,验证者 V的输入是已知摄像机视点/姿势的观察。从具有感应运动功能的代理(例如人或具有里程计的机器人)的角度看,这是合理的,但是也阻止了其应用更多非结构化数据源(例如视频)。在另一个最近的工作中,我们表明可以适当放松姿势要求,并且与单个图像3D预测器联合学习PP。

更具体地说,在这种情况下,我们的验证者 VV是基于可微分的基于深度的视图合成器,其使用预测的深度图和来自源视图(比如:观察图)的在不同摄像机姿态下看到的像素来输出场景的目标视图。这里预测了深度图和相机姿态,并且一致性由合成的和地面真实目标视图之间的像素重建误差来定义。通过联合学习场景几何和摄像机姿态,我们能够在未标记的视频剪辑上训练系统,而无需对深度或姿态进行任何直接监视。

将验证器制定为基于深度的视图合成器,并且联合深度和摄像机姿态的学习允许我们从无标签的视频训练整个系统,而无需对深度或姿势进行任何直接监督。

我们在KITTI和Cityscapes数据集上对我们的模型进行了培训和评估,这些数据集包括城市车辆驾驶的视频。下面的视频展示了我们的单视点深度网络所做的逐帧(即没有时间平滑)预测(更多可以在项目网页中找到)。

令人惊讶的是,尽管我们的训练没有任何地面实况标签,但我们的单视点深度模型与一些监视的基线性能完全相同,而姿态估计模型也可以与完善的SLAM系统进行比较(详情请参阅文章) 。

在没有3D监控的情况下学习单一图像3D是计算机视觉领域令人兴奋的话题。使用几何作为学习系统和多视图训练数据之间的桥梁,使我们能够绕开繁琐而昂贵的获取地面真实三维标签的过程。更广泛地说,人们可以把几何一致性解释为一种形式的元监督,而不是预测是什么,而是如何表现。我们认为,类似的原则也可以适用于其他难以获得直接标签的问题领域。

我们要感谢TZ的顾问TZ的顾问顾问的宝贵意见。

这篇文章是基于以下文件:

其他最近的多视图监督3D预测方法:

本文的版权归 庹阳 所有,如需转载请联系作者。

发表于

扫描关注云+社区

Tencentcloud

7 篇文章15 人订阅

我来说两句

1 条评论
登录 后参与评论

相关文章

扫描关注云+社区