前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学习多视图立体机

学习多视图立体机

作者头像
花落花飞去
发布2018-02-01 09:59:13
2.2K0
发布2018-02-01 09:59:13
举报
文章被收录于专栏:人工智能人工智能

去考虑看一张椅子的照片。即使我们以前从未见过这样的椅子,但我们人类有出色的能力,可以从这单张照片中推断出这张椅子的三维形状。可以证明人类经验主义的一个更具代表性的例子就是,我们和椅子共处于同一个物理空间中,并从不同的角度积累信息,在我们的脑海中可以组建起这个椅子的三维形状。这个复杂的二维到三维的推理任务,我们是怎样完成的?我们又是使用什么样的线索? 从仅有的几个视角,我们是怎样无缝整合这些信息并且建立一个整体的三维场景模型?

计算机视觉方面的大量工作都致力于开发算法,这些算法利用图像中的线索,来实现这一三维重建任务。它们的范围从单眼线索,如阴影,线性视角,大小恒常等到双视角,甚至是多视角立体视觉。整合多个视点的主导范例一直是利用立体视图,也就是说,如果从多个视点来看三维世界中的一个点,它在三维中的位置可以通过在相应视图中三角化它的投影来确定。这类算法已经引导了Structure from Motion(SfM)和Multi-view Stereo(MVS)的开发,并被用于制作城市规模的 3D模型,并且实现了丰富的视觉体验,如3D立体 地图。随着深度神经网络的出现及其在视觉数据建模中的巨大影响力,大众焦点最近转移到用CNN隐式地建立单眼线索模型,和从单个图像中预测3D作为深度 / 表面方位图或3D 像素 网格

近期工作中,我们尝试统一这些单视和多视三维重建的范例。我们提出了一种叫做Learned Stereo Machine(LSM)的新颖系统,它可以利用单眼/语义线索进行单视图三维重建,同时还可以使用立体视图集成来自多个视点的信息 - 所有的这些都在一个端到端学习的深度神经网络中。

学习的立体机器

设计LSMs来解决多视点立体声的任务。给定一组具有已知摄像机的图像,LSMs为底层场景生成一个3D模型 - 具体来说,在每个输入视图的像素深度图的形式中,要么是一个像素占用网格,要么是一个场景密集点云。在设计LSMs时,我们从MVS的经典作品中汲取灵感。首先从图像中提取特征以找到它们之间的对应关系。通过比较图像之间的特征,形成匹配成本量。然后通过跨多尺度聚合信息并合并先验的图形(诸如局部平滑度,分段平面度等),过滤/正规化这些匹配成本(通常是嘈杂的)。最终过滤后的成本量被解码为预期的表示形状,如3D体积/表面/视差图。

这里的主要成分是一个可区分投影逆投影特征的模块,允许LSMs以几何连续的方式在2D图像和3D空间之间移动。逆投影操作将2D图像(由前馈CNN提取)的特征放置到3D世界网格中,使得多个这样的图像的特征根据极线约束在三维网格中对齐。这简化了特征匹配,因为现在沿着极线的搜索来计算匹配的成本,就会降低到只需要查找到在三维世界网格中给定位置的所有特征。该特征匹配使用3D循环单元来建模,该单元对未被投影的网格进行顺序匹配,同时维持估计匹配得分的运行。一旦我们使用3D CNN过滤本地匹配成本量,我们可以将其直接解码为像素预测任务的三维像素占用网格,或者使用可微分投影操作将其投影回二维图像空间。投影操作可以被认为是逆投影操作的逆过程,在投影过程中,我们采用三维特征网格和样本特征,以相同的深度间隔观察光线,将它们放置在二维特征图中。然后,通过一系列的卷积运算,将这些投影的特征图解码到每个视图深度图中。由于我们网络中的每一步都是完全可以区分的,我们可以通过深度图或体素格作为监督来端对端地训练系统!投影操作可以被认为是非投影操作的逆过程,其中我们以相等的深度间隔沿着观看光线拍摄三维特征网格和样本特征,以将它们放置在二维特征图中。然后通过一系列卷积运算将这些投影的特征图解码为每个视图的深度图。因为我们网络中的每一步都是可以完全区分的,我们可以通过深度图或像素格作为监督来端对端地训练系统!

由于LSMs可以从可变数量的图像(甚至仅仅是单个图像)预测三维模型,所以它们可以选择非常依赖于多视图的立体视觉线索或者单视图语义线索,这取决于具体的实例和视图的数量。LSMs可以生成粗糙的全三维体素格网以及稠密的深度图,从而将两种主要的模式应用于深度神经网络的三维预测中。

在我们的报告中,我们对基于像素的多视图三维物体重建进行了大量的改进,与之前的先进技术相比,它使用了一个递归的神经网络集成了多个视图。我们还展示了非范畴化的泛化,即LSMs可以重构汽车,虽然它们仅仅是在飞机和椅子的图像上训练。因为我们对任务的几何处理才使之成为可能。我们还从一些视图中显示了密集的重构——这比传统的MVS系统所需要的要少得多

下一步是什么?

LSMs是在三维重建中统一多个范例的一个步骤——单一和多视图,语义和几何重构,粗糙和密集的预测。联合处理这些问题有助于我们学习更强大,更准确的模型,同时比流水线解决方案更易于部署。

这是三维计算机视觉的激动人心的时刻。用深度网络预测高分辨率的几何图形现在是可能的。我们甚至可以在没有明确三维监督的情况下训练三维预测。我们迫不及待想要在LSMs中使用这些技巧/想法。还有待观察的是,如何将图像从二维提升到三维以及如何在公制世界空间推理这些图像将有助于其他下游相关任务(如导航和抓取),但是这确实会是一个有趣的旅程!我们将很快公布LSMs的代码,以便于实验和重复性。可以随意使用它,并发表评论!

我们要感谢Saurabh Gupta,Shubham Tulsiani和David Fouhey。

这篇博文是基于以下报道

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学习的立体机器
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档