学界 | 伯克利提出分层表面预测:可根据单张彩色图重建高质量3D形状

选自BAIR

作者:Christian Hane

机器之心编译

参与:panda

根据图像重建 3D 几何形状是计算机视觉领域的核心问题之一,其应用也多种多样,比如电影制作、视频游戏内容生成、虚拟现实和增强现实、3D 打印等等。前段时间,伯克利人工智能研究所(BAIR)的几位研究者提出了一种可根据二维图像重建高分辨率三维形状的方法——分层表面预测(HSP)。BAIR 官网近日发文对该研究成果进行了简单介绍,更多详细信息请阅读原论文。

论文地址:https://arxiv.org/abs/1704.00710

本文讨论的任务是根据物体的单张彩色图像重建高质量的 3D 几何形状,如下图所示:

人类具有不费吹灰之力就推理出物体和场景的形状的能力,即使只看单一一张图像也能办到。注意,我们两只眼睛的双目视觉方式让我们可以感知深度,但对于理解 3D 几何形状而言并不是必需的。即使我们只看一个物体的一张照片,我们也能很好地理解它的形状。此外,我们也可以推理物体上看不见的部分,比如背部,这是一种可以帮助我们抓取物体的重要能力。那么问题就来了,人类是怎么根据单张图像就推理出物体的几何形状的呢?而在人工智能方面,我们可以怎样教机器学会这种能力?

形状空间

基于不明确的输入重建几何形状的基本原理是:物体的形状并不是任意的。因此其中有的形状更有可能出现,一些形状则不太可能。一般来说,物体表面往往是平滑过渡的。在人工制造的环境中,它们还常常是分段线性变化的。这种高级规则适用的物体有很多。比如飞机通常有一个机身,两侧各安装了一个翅膀,尾部还有一个垂直稳定翼。人类可以通过用眼观察、用手交互而获取这种知识。在计算机视觉中,因为物体的形状不是任意的,这让我们可以将一种或多种物体类别的所有可能形状描述为一个低维形状空间,这可以从大量样本形状的集合中习得。

使用 CNN 预测体素

3D 重建领域近来一些研究(https://arxiv.org/abs/1604.00449,https://arxiv.org/abs/1603.08637)使用了卷积神经网络(CNN)来预测物体在 3D 空间中的形状。这种 3D 输出的体积形状可以被细分为体积元素,即体素(voxel),并且每个体素都被安排了是否被占据或为空——即分别表示该物体的内部和外部。其输入通常是描绘了该物体的单张彩色图像,而该 CNN 使用了一个上卷积解码器(up-convolutional decoder)架构来预测物体的体积占用。该网络是端到端训练的,并且使用了已知的 ground truth 体积占用——这些数据来自合成的 CAD 模型数据集。使用这种 3D 表征和 CNN,可以学习到适用于多种物体类别的模型。

分层表面预测

使用 CNN 预测体积占用的主要缺陷是:输出空间是三维的,因此分辨率会以立方的方式增长。这个问题导致上面提到的研究成果难以预测得到高质量的几何形状,因此局限于粗糙分辨率的体素网格,比如上图中的 32^3。在我们的研究成果中,我们认为这是一种不必要的限制,因为物体的表面实际上只有两维。通过分层预测分辨率精细的体素,我们利用了表面的二维本质,只是其中表面是根据低分辨率预测判断的。其基本思想接近八叉树表示法,这种方法常常在多视角立体图和深度图融合中用来表示高分辨率几何形状。

方法

基本的 3D 预测流程以一张彩色图像作为输入,它首先会被一个卷积编码器编码成一个低维表征。然后这个低维表征会被解码成一个 3D 体积。我们方法的主要思想被称为分层表面预测(HSP/hierarchical surface prediction),这种方法的解码阶段一开始是预测低分辨率的体素。但是和体素要么被占据要么为空的传统方法不同,我们使用了三类:空空间、被占据空间和边界空间。这让我们可以分析低分辨率的输出,并且仅在有证据表明包含表面的体积处预测有更高分辨率的部分。通过迭代这个精细化过程,我们可以分层地预测出高分辨率的体素网格(见下图)。有关该方法的更多细节请参阅我们的论文。

实验

我们的实验主要是在合成的 ShapeNet 数据集上完成的。

  • ShapeNet 地址:https://shapenet.org (https://shapenet.org/)
  • 数据集相关论文:https://arxiv.org/abs/1512.03012

我们研究的主要任务是根据单张彩色图像预测高分辨率的几何形状。我们将我们的方法与我们称为低分辨率硬(LR hard)和低分辨率软(LR soft)的两个基准进行了比较。这两个基准的预测分辨率都是粗糙的 32^3,但训练数据的生成方式有所不同。LR hard 使用了体素的二元分配。如果至少有一个对应的高分辨率体素被占据,那么所有体素都会被标记为占据。LR soft 则使用了分数分配,反映了其占据的体素在对应高分辨率体素中所占的百分比。我们的 HSP 方法的预测分辨率为 256^3。从下图中的结果可以看到,相对于低分辨率基准,高分辨率预测在表面质量和完成度上都有优势。定量结果和更多实验可参阅我们的技术论文。

原文地址:http://bair.berkeley.edu/blog/2017/08/23/high-quality-3d-obj-reconstruction/

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

“小数据”的统计学

一、小数据来自哪里? 科技公司的数据科学、关联性分析以及机器学习等方面的活动大多围绕着”大数据”,这些大型数据集包含文档、 用户、 文件、 查询、 歌曲、 图片...

3526
来自专栏机器之心

资源 | 25个机器学习面试题,期待你来解答

许多数据科学家主要是从一个数据从业者的角度来研究机器学习(ML)。因此,关于机器学习,我们应该尽可能多地把注意力放在新的程序包、框架、技术等方面,而不是关于核心...

631
来自专栏机器之心

研学社•架构组 | 实时深度学习的推理加速和连续学习

机器之心原创 作者:Yanchen Wang 参与:panda 在本技术分析报告的第一部分《研学社·系统组 | 实时深度学习的推理加速和持续训练》,我们介绍了最...

2836
来自专栏机器学习之旅

基于Tensorflow的神经网络解决用户流失概率问题

注意,已经很多很多人和我说最后的loss不变,大家的数据都不一样,如果发现loss不变请降低learning_rate = 1e-6,就可以解决,还有问题的话,...

1103
来自专栏AI研习社

NanoNets:数据有限如何应用深度学习?

使用深度学习解决问题的一个常见障碍是训练模型所需的数据量。对大数据的需求是因为模型中有大量参数需要学习。

1252
来自专栏智能算法

25个机器学习面试题,你都会吗?

许多数据科学家主要是从一个数据从业者的角度来研究机器学习(ML)。因此,关于机器学习,我们应该尽可能多地把注意力放在新的程序包、框架、技术等方面,而不是关于核心...

962
来自专栏星回的实验室

推荐系统从0到1[三]:排序模型

前文中,我们根据不同召回策略召回了一批文章,并统一根据文章质量排序输出。但实际上,用户的阅读兴趣还会受到很多其他因素的影响。比如用户所处的网络环境,文章点击率、...

4594
来自专栏应兆康的专栏

20. 偏差和方差

1631
来自专栏AI研习社

手把手教你从零起步构建自己的图像搜索模型

很多的产品是基于我们的感知来吸引我们的。比如在浏览服装网站上的服装,寻找 Airbnb 上的假期租房,或者领养宠物时,物品的颜值往往是我们做决定的重要因素。想要...

1143
来自专栏机器之心

前沿 | 超越像素平面:聚焦3D深度学习的现在和未来

想象一下,如果你正在建造一辆自动驾驶汽车,它需要了解周围的环境。为了安全行驶,你的汽车该如何感知行人、骑车的人以及周围其它的车辆呢?你可能会想到用一个摄像头来满...

1712

扫码关注云+社区