学界 | UC伯克利大学AI实验室用一张单色图像生成高质量3D几何结构

AI科技评论按:用图像来重建3D数字几何结构是计算机视觉领域一个非常核心的问题。这种技术在许多领域都有广泛的应用,例如电影制作、视频游戏的内容生成、虚拟现实和增强现实、3D打印等等。伯克利人工智能研究中心的Christian Häne等人近日发表一篇论文「Hierarchical Surface Prediction for 3D Object Reconstruction」,论文中他们讨论如何从单张色彩图像重建出高质量的3D几何结构,就像下面这幅图所显示的。AI 科技评论编译如下。

对于我们人类来说,即使只看到一张图像,我们也能毫不费力地对物体和场景的形状进行理解。请注意,我们眼睛的双目效果允许我们感知深度,我们不需要了解物体3D几何结构。所以即使我们只是看到一个实体的照片,我们也能对它的形状有很好的感知。不仅如此,我们还能理解物体看不见的部分(例如背面),这对抓取物体这样的动作来说是非常重要的。于是问题就来了,我们人类是如何从单张图像推出物体的几何结构的呢?在人工智能这个方面,我们怎么才能教会机器掌握这个能力呢?

一、形状空间

由任意的输入图像来重建其3D几何结构,基本的原理就是:物体形状不是任意的,因此有些形状是可能的,而有些是不可能的。一般来说,物体的表面往往是光滑的,尤其是人造物体,常常就是由几个分段的平面构成。对于预测物体,我们可以使用同样的规则。例如,飞机通常具有机身,两侧附接两个主翼,后侧会安装有垂直稳定翼。人类能通过眼睛观察世界,并用手来与世界进行互动,然后获得这样的知识。在计算机视觉中,“形状不是任意的”这个事实允许我们通过收集大量的示例形状,来将一个对象类或者多个对象类的所有可能形状描述成低维形状空间。 使用CNN来预测体素(Voxel Prediction)

最近Choy,Girdhar等人发表了他们关于3D重建的论文,在他们的工作中他们的“输出”是一个3D体积空间,这个3D体积被细分成体积元素(称为体素,voxel),每个体素会有一个分配(被占据或自由空间),而物体形状的预测则表示为由体素组成的3D占据体积。在他们的模型中“输入”通常为一个描述物体的单色图像,然后他们用卷积网络神经(CNN)的上卷积解码器架构来预测这个占据体积。该网络由端对端进行训练,并且由已知的ground truth占据体积(通过合成CAD模型数据集获得)来进行监督学习。通过这种3D表示(体素)以及CNN,这种模型就可以学习,且能够适应各种对象类。

二、层进表面预测

上述方法(使用CNN预测占据体积)有一个很大的缺点,由于其输出空间是三维的,于是相对增加的分辨率就会以立方的形式增长。这个问题使得这种方法难以预测高质量的几何形状,且限于比较粗糙的分辨率体素网格,例如上面32^3的结果。在Christian Häne等人的工作中,他们认为这是一个不必要的限制,因为表面实际上只是二维的。于是他们通过层进的方式利用表面的二维性质来预测精细分辨率体素,此时只需要对表面进行高分辨率的预测即可。其基本思想和八叉树表示的思想关系很近,八叉树表示通常是用于多视图立体声和深度图融合等领域来表示高分辨率的几何结构。

方法

在这个3D预测模型(称为层进表面预测(Hierarchical Surface Prediction, HSP))中,首先我们输入一张单色图像,用卷积编码器将其编码为低维表示。然后,将该低维表示解码成3D占用体积。其主要思想是通过预测低分辨率体素开始解码。关键之处在于,不同于标准的方法将体素分为占据/自由空间,HSP会将体素分为三类:自由空间占据空间边界。使用这种方法,“输出”的分辨率可以很低,只要保证在那些有迹象表明它包含“边界”的部分有较高的分辨率即可。通过迭代,我们可以层进地预测出高分辨率的体素网格。模型更多的细节可以参看论文,这里就不再详解。

实验

模型的实验主要利用了合成的ShapeNet数据集进行训练。作者将结果与两个基线模型——硬低分辨率模型(low resolution hard,LR hard)和软低分辨率模型(low resolution soft,LR soft))——进行了对比。这两个基线模型都是以32^3粗分辨率进行预测,只是训练数据的生成方式不同。LR hard对体素使用双分法进行分配,即如果在相应的高分辨率体素中至少一个被占用,则所有体素将被标记为被占用。LR soft则使用分数法进行分配,每一个体素将反映出在相关的高分辨率体素中占有的百分比。HSP方法则以256^3的分辨率进行预测。下面的结果显示,HSP方法与基线方法相比,在表面质量和高分辨率预测的完整性方面表现更好。

via BAIR,AI 科技评论编译

相关论文连接:

1、Hierarchical Surface Prediction for 3D Object Reconstruction(Christian Häne等) https://arxiv.org/pdf/1704.00710.pdf

2、3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction(Choy等) https://arxiv.org/pdf/1604.00449.pdf

3、Learning a Predictable and Generative Vector Representation for Objects(Girdhar等) https://arxiv.org/pdf/1603.08637.pdf

4、ShapeNet: An Information-Rich 3D Model Repository(关于ShapeNet数据集的论文) https://arxiv.org/pdf/1512.03012.pdf

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

【SIGAI综述】行人检测算法

行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题。和人脸检测问题相比,由于人体的姿态复杂,变形更大,附着物和遮挡等问题更严重,因此准确的检测处于各种...

982
来自专栏量子位

手把手带你入坑迁移学习(by 当过黑客的CTO大叔)

原作 Slav Ivanov Root 编译自 Slav寄几的博客 量子位 出品 | 公众号 QbitAI Slav Ivanov是Post Planer(提高...

3216
来自专栏AI科技大本营的专栏

刚毕业就能拿到56万年薪?对!看看Twitter机器学习大牛写给你的进阶手册吧

年薪十万?对于程序员来说,这仅仅是温饱水平。 根据国家统计局今年上半年发布的消息,2016 年信息传输、软件和信息技术服务业的平均工资为 122478 元,首次...

3657
来自专栏新智元

【Bengio领衔】DeepMind、谷歌大脑核心研究员2017深度学习最新报告(PPT)

【新智元导读】 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前“深度学习”部分的报告已经全部结束。 本年度作报告的学术和行...

3405
来自专栏大数据文摘

“无中生有”计算机视觉探奇

952
来自专栏机器之心

演讲 | 今日头条AI技术沙龙马毅:低维模型与深度模型的殊途同归

机器之心原创 作者:邱陆陆 上周,今日头条人工智能实验室在清华大学举办了第二期 AI 技术沙龙,邀请到上海科技大学信息科学与技术学院的马毅教授带来题为「高维数据...

5487
来自专栏腾讯大数据的专栏

CTR预估中GBDT与LR融合方案

1背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR...

7516
来自专栏AI科技评论

干货 | 香港科技大学施行健:深度学习如何用于短临降雨预报

AI科技评论按:本文介绍了 NIPS 2017 论文: Deep Learning for Precipitation Nowcasting: A Benchm...

3707
来自专栏CVer

[计算机视觉论文速递] 2018-03-20

通知:这篇推文有13篇论文速递信息,涉及图像分割、SLAM、显著性、深度估计、车辆计数等方向 往期回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] ...

4128
来自专栏AI科技评论

华为诺亚方舟实验室主任李航:自然语言处理的未来趋势

编者按:12月18日,腾讯大数据峰会暨KDD China技术峰会在深圳举行,华为诺亚方舟实验室主任李航博士在会上做了题为《自然语言处理中的深度学习:过去、现在和...

3426

扫码关注云+社区