解决3D重建难题,伯克利大学根据单张平面彩图重建高精度3D结构

【新智元导读】3D重建是计算机视觉中的一个核心问题,应用于电影制作、视频游戏的内容制作、虚拟现实和增强现实、3D打印,等等。伯克利大学的研究团队提出根据单张彩色平面图像重建出高质量的3D几何图形的新方法,相比其他基线方法效果更好。

论文地址:https://arxiv.org/pdf/1704.00710.pdf

从平面图像重建3D几何图形是计算机视觉中的一个核心问题。3D重建有许多应用,例如电影制作、视频游戏的内容制作、虚拟现实和增强现实、3D打印,等等。这篇文章探讨如何从单一的彩色图像重建高质量的3D几何图形,如下图所示:

人类毫不费劲就能理解物体和场景的形状,哪怕我们看到的只是一张平面图像。我们双眼的结构让我们能够感知深度,并不需要理解3D几何。即使我们只看到一个物体的照片,我们也能对它的形状有很好的理解。此外,我们还能够理解例如物体背面的看不见的部分,这是了解物体形状的重要能力。那么,人类是如何根据单个图像推理其几何形状的呢?在人工智能方面提出的问题是:我们可以怎样教会机器这样的能力?

形状空间

从不明确的输入重建几何形状的基本原理是,几何形状不是任意的,因此有些形状更可能,有些则非常不可能。一般来说,表面都是光滑的。在人造环境中,它们通常是分段的平面。例如,飞机通常有一个机身,机身两侧有两个主翼,后方有一个垂直尾翼。人类能够通过眼睛观察世界,并动手与世界互动来获取这样的只是。在计算机视觉中,形状不是任意的这一事实允许我们将一个对象类或多个对象类的所有可能形状描述为一个低维的形状空间(low dimensional shape space),这是从大量示例形状获取的。

使用CNN进行体素预测

3D重建方面的一项最新工作[Choy et al. ECCV 2016, Girdhar et al. ECCV 2016]利用卷积神经网络(CNN)将物体的形状预测为一个3D体积。作为输出的3D体积被细分为体积元素,称为体素(voxel),每个体素被确定为被占用或空着(即,分别属于物体的内部或外部)。输入通常是一张彩色图片,CNN使用一个上卷积解码器架构来预测占用体积(occupancy volume)。网络被端到端地训练,并且由已知的真实占用体积进行监督,这些占用是从合成CAD模型数据集中获取的。使用这种3D表示和CNN,可以学习能够适用各种对象类的模型。

分层进行表面预测

使用CNN预测占用体积的主要缺点是输出的空间是三维的,因此它的分辨率具有指数函数级的增长(cubic growth)。这个问题限制了上述工作预测高质量的几何形状,因此产生的是分辨率非常粗糙的体素网格( voxel grids),例如32³(上图)。在我们的工作中,我们认为这是一个不必要的限制因素,因为图形的表面实际上只是二维的。我们利用表面的二维性质,通过分层预测高分辨率体素,根据低分辨率的预测结果来推测表面。这个想法与八叉树表示(octree representation)密切相关,八叉树通常用于多视角立体视觉和深度图融合(depth map fusion)来表示高分辨率的几何形状。

方法

基本的3D预测流程是将一张彩色图像作为输入,使用卷积编码器将其先编码为低维表示。然后,这个低维表示被解码称一个3D占用体积。我们的方法的主要想法被称为分层表面预测(hierarchical surface prediction,HSP),是通过预测低分辨率体素开始解码。但是,与一般的方法相反,每个体素都被分类为自由空间(free space)或占用空间(occupied space),我们使用3个类:自由空间、占用空间和边界。这允许我们以低分辨率分析输出,并且只在有证据表明该输出包含表面时预测该部分体积的更高分辨率。通过迭代这个细化的过程,我们可以分层第预测高分辨率体素网格(见下图)。该方法的更多细节,请读者阅读我们的技术论文[Häneet al. arXiv 2017]。

实验

我们的实验主要是在合成的ShapeNet数据集上进行的[Chang et al. arXiv 2015]。我们的研究的主要任务是根据单一的彩色图像预测出高分辨率的3D图形。我们将我们的方法与我们称为low resolution hard(LR hard)和 low resolution soft(LR soft)的两个基线进行比较。这些基线以相同的低分辨率32³进行预测,但训练数据的生成方式不同。LR hard 基线使用体素的二进制分配。如果相应的高分辨率体素中的至少一个被占用,则所有体素被标记为被占用。LR soft基线使用分数赋值,反映相应高分辨率体素中占用体素的百分比。我们的HSP方法以256³的分辨率进行预测。下图中的结果显示了与低分辨率基线相比,在生成3D图形的表面质量和高分辨率预测的完整性方面的好处。我们的论文中讨论了更多实验和定量结果。

这篇文章基于以下论文:

Hierarchical Surface Prediction for 3D Object Reconstruction, C. Häne, S.Tulsiani, J.Malik, ArXiv 2017

https://arxiv.org/abs/1704.00710

原文链接:http://bair.berkeley.edu/blog/2017/08/23/high-quality-3d-obj-reconstruction/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-08-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

R语言之kmeans聚类理论篇!

前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后...

68011
来自专栏机器学习算法与Python学习

机器学习(5)之决策树ID3及Python实现

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 ID3是什么? ID3算法是决策树的...

3115
来自专栏人工智能

计算图的微积分:反向传播

后向传播是训练深度模型在计算上易于处理的关键算法。对于现代神经网络,相对于单纯的实现,它可以使梯度下降的训练速度提高一千万倍。这相当于模型训练时间...

3307
来自专栏机器之心

学界 | Bengio等提出稀疏注意力回溯:长期依赖关系建模的更一般化机制

人类对与当前心理状态相关的很久之前的事件有很强的记忆能力(Ciaramelli et al., 2008)。大多数关于记忆的实验和理论分析都集中在理解形成记忆和...

941
来自专栏Python中文社区

Python机器学习工具:Scikit-Learn介绍与实践

Scikit-learn 简介 官方的解释很简单: Machine Learning in Python, 用python来玩机器学习。 什么是机器学习 机...

2147
来自专栏CVer

[计算机视觉论文速递] 2018-05-24

这篇文章有5篇论文速递信息,涉及活体检测、SFM、视差估计、Zero-short Learning和3D shape等方向(含一篇CVPR 2018)。

1512
来自专栏人工智能头条

应用深度学习时需要思考的问题

1653
来自专栏机器之心

资源 |《TensorFlow深度学习》前两章提供开放下载

选自Matroid 机器之心编译 参与:黄小天 最近,《TensorFlow 深度学习》(TensorFlow for Deep Learning)一书发布前...

2885
来自专栏AI研习社

通过简单代码回顾卷积块

我会努力定期去阅读机器学习和人工智能相关的论文。这也是能够持续跟进最新进展的唯一途径。作为一名计算机科学家,我经常在翻阅科学描述文本或者公式的数学符号时碰壁。我...

1454
来自专栏机器之心

学界 | 迁移学习 + BPE,改进低资源语言的神经翻译结果

选自arXiv 作者:Toan Q Nguyen、David Chiang 机器之心编译 参与:李亚洲、路雪 在本论文中,作者结合迁移学习与 BPE 方法,使用...

32011

扫码关注云+社区

领取腾讯云代金券