Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学界 | 3D形状补全新突破:MIT提出结合对抗学习形状先验的ShapeHD

学界 | 3D形状补全新突破:MIT提出结合对抗学习形状先验的ShapeHD

作者头像
机器之心
发布于 2018-10-22 02:51:57
发布于 2018-10-22 02:51:57
1.1K0
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Jiajun Wu 等

机器之心编译

参与:乾树、张倩

单视图 3D 形状补全或重建具有挑战性。在给定单视图输入的情况下,ground truth 的形状是不确定的。现有的全监督方法无法解决这个问题。本文提出了 ShapeHD,通过将深度生成模型与对抗学习的形状先验相结合,超越单视图形状补全和重建的极限。实验证明,ShapeHD 在多个真实数据集的形状补全和形状重建方面都远远超过了当前最高水平。

图 1. 研究者的模型使用单深度图像或 RGB 图像中的精细细节补全或重建对象的完整 3D 形状。

让我们从一个游戏开始:图 1 展示了一个深度图像或彩色图像以及两种不同的 3D 形状渲染图。哪一个看起来更好?

在这幅图中,研究者展示了两个例子,每个例子包括一个输入图像、两个 ground truth 的视图,以及两个结果图。研究者重建的形状高质且富含细节,并且在人类调研中的选择率分别是 41% 和 35%。研究者的模型在测试期间采用单个前馈传递且无需任何后处理,因此非常高效(<100 ms)、实用。

我们在亚马逊 Mechanical Turk 平台上向 100 人提出这个问题。59% 的人选择重建的飞机 A,35% 的人更喜欢重建的汽车 A。这些数字表明人们对这两种情况的偏好存在分歧,这些重建的质量接近,而且他们的感知差异相对较小。

实际上,对于每个实例,本文介绍的模型的输出是重建结果之一,另一个是 ground truth。

在本文中,研究者的目标是超越从单个深度图像到 3D 形状补全和从单个彩色图像到 3D 形状重建的极限。最近,研究者利用巨大的三维数据集 [5,60,59] 在这些任务上取得了令人印象深刻的进展 [7,52,8]。

这些方法中的许多方法通过使用深度卷积网络来生成可能的 3D 形状来应对问题的病态本质。利用深度生成模型的力量,他们的系统学会避免生成极不真实的形状(图 2b)。

然而,从图 2c 中我们意识到,受过监督训练的网络建模失败还存在歧义。对于单视图图像,存在多种自然形状,可以很好地解释看到的结果。换句话说,每个观察到的结果都没有确定的 ground truth。通过纯粹的监督学习,网络倾向于产生平均形状,这些形状由于歧义的存在而将惩罚最小化。

为了解决这个问题,研究者提出了 ShapeHD,通过将深度体积卷积网络与对抗网络学习的形状先验相结合来补全或重建 3D 形状。学到的形状先验只有在生成的形状脱离实际时才对模型进行惩罚,在偏离 ground truth 时不进行惩罚。

这解决了上面讨论的难题。研究者的模型通过对抗学习来描述这种自然性损失,该研究课题近年来受到了极大的关注,并且仍在迅猛发展 [14,37,57]。

在多个合成和真实数据集上的实验表明,ShapeHD 在单视图 3D 形状补全和重建方面表现良好,比最先进的系统表现更好。进一步分析表明,网络学会了了解有意义的对象的子部分,自然模块随着时间的推移确实有助于表征形状细节。

图 2. 单视图 3D 形状感知中的两个歧义等级。对于每个 2D 视图(a),存在许多可能的 3D 形状可以很好地解释这个视图(b,c),但只有一小部分符合真实的日常形状(c)。利用深度网络进行识别的方法在一定程度上减少了这一层面的歧义。

论文:Learning Shape Priors for Single-View 3D Completion and Reconstruction

论文链接:https://arxiv.org/pdf/1809.05068v1.pdf

摘要:单视图 3D 形状补全或重建具有挑战性,因为一个视图可能对应许多可能的形状,大多数情况不合情理且没有对应的自然对象。该领域的最新研究是通过利用深度卷积网络的表征能力来解决这个问题。事实上,还存在另一种常常被忽视的歧义:在合理的形状中,仍有多种形状可以很好地对应 2D 图像;即,在给定单视图输入的情况下,ground truth 的形状是不确定的。现有的全监督方法无法解决这个问题,而且通常会产生表面光滑但没有精细细节的模糊平均形状。在本文中,我们提出了 ShapeHD,通过将深度生成模型与对抗学习的形状先验相结合,超越单视图形状补全和重建的极限。学习到的先验知识作为一个正则化向,只有在它的输出脱离现实而非简单的偏离 ground truth 时才会对模型进行惩罚。因此,我们的设计解决了前面提到的两种歧义。实验证明,ShapeHD 在多个真实数据集的形状补全和形状重建方面都远远超过了现有最高水平。

图 3. 对于单视图形状重建,ShapeHD 包含三个组件:(I)用于预测单个图像的深度、表面法线和轮廓图像的 2.5D 轮廓估计器;(II)3D 形状补全模块,该模块根据轮廓掩膜深度和表面法线图像补全 3D 形状;(III)用作自然损失函数的对抗预训练卷积网。在微调 3D 形状补全网络时,我们使用两种损失函数:输出形状的监督损失,以及预训练鉴别器提供的自然损失。

单视图形状补全

图 5. 3D 形状补全模型的结果,以及现有技术 3DEPN [8] 和研究者的没有自然损失的模型的对比。研究者发现对抗训练的自然损失有助于修复错误、添加细节(例如第 3 行中的机翼、第 6 行中的汽车座椅和第 8 行中的椅子把手)及抚平平面表面(例如第 7 行的沙发)。

表 1. ShapeNet 上的 3D 形状补全的平均 IoU 分数(323)和 CD [5]。我们的模型远远超过了现有最高技术水平。可学习的自然损失不断改善本文的结果和 ground truth 之间的 CD。

图 6. 来自物理扫描仪的深度数据的 3D 形状补全的结果。研究者的模型能够从单视图中很好地重建形状。从左到右:输入的深度图片,补全结果的两个视图以及对象的彩色图像。

3D 形状重建

图 10. Pix3D 上的单视图 3D 重建 [45]。对于每个输入图像,研究者展示了通过 AtlasNet、DRC、ShapeHD 的重建效果图以及 ground truth。研究者的 ShapeHD 重建完整的 3D 形状,具有接近 ground truth 的精细细节。

图 11. ShapeHD 处理深度图中细节的可视化。第 1 行:车轮探测器。第 2 行:椅背和椅子腿探测器。左边对应于跨步模式。第 3 行:椅子臂和椅子腿探测器。第 4 行:飞机发动机和曲面探测器。右侧对应跨类别的特定模式。

图 12. 使用自然损失的 ShapeHD 随着时间推移的演变图:随着细节的增加,预测的形状变得越来越逼真。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
单视图三维重建
《Learning Shape Priors for Single-View 3D Completion and Reconstruction 》。再此分享给大家。同时也抛砖引玉吸引大家能够积极参与分享中。
点云PCL博主
2019/07/30
2K0
单视图三维重建
优Tech分享 | 腾讯优图提出LAP无监督多视角人脸3D重建算法,高清还原面部细节
​近日,腾讯优图实验室提出无监督多视角人脸3D重建算法LAP(Learning to Aggregate and Personalize),摆脱人脸3D训练样本真值依赖,高清还原任意In-The-Wild人脸面部形状与细节纹理,重建精度误差与分辨率大幅超越当前业界State-of-The-Art 水平,该方法同时在多个人脸3D数据集上刷新纪录,相关工作中稿计算机视觉领域顶级会议CVPR 2021(Oral)。
优图实验室
2021/04/09
1.5K1
优Tech分享 | 腾讯优图提出LAP无监督多视角人脸3D重建算法,高清还原面部细节
学界 | 牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术
选自arXiv 机器之心编译 参与:李泽南 对于现实世界物体的 3D 建模是很多工作中都会出现的任务。目前流行的方法通常需要对于目标物体进行多角度测量,这种方法耗费资源且准确度低下。近日,来自牛津大学等院校的研究者们提出了一种基于自编码器与 GAN 的机器学习 3D 建模方式 3D-RecGAN,可以在只需要一张图片的情况下准确构建物体的 3D 结构。该研究的论文即将出现在 10 月底于威尼斯举行的 ICCV 2017 大会上。 重建物体完整与准确的 3D 模型是很多工作中必不可少的任务,从 AR/VR 应
机器之心
2018/05/08
1.2K0
学界 | 牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术
基于深度学习的RGBD深度图补全算法文章鉴赏
【GiantPandaCV导语】本文针对3维视觉中的深度图补全问题,介绍了一下近年基于深度学习的RGB-D深度图补全算法进展。深度图的质量对3维视觉至关重要,深度图的优劣极大地影响了后续的3d识别等工作,但目前较多研究聚焦于自动驾驶领域的Lidar深度图的补全,而对RGB-D相机涉猎较少,故本文介绍几篇基于consumer RGB-D cameras深度图补全的深度学习方法,以此来看看近期该领域的发展现状。
BBuf
2021/07/01
2.3K0
基于深度学习的RGBD深度图补全算法文章鉴赏
学界 | 伯克利提出分层表面预测:可根据单张彩色图重建高质量3D形状
选自BAIR 作者:Christian Hane 机器之心编译 参与:panda 根据图像重建 3D 几何形状是计算机视觉领域的核心问题之一,其应用也多种多样,比如电影制作、视频游戏内容生成、虚拟现实和增强现实、3D 打印等等。前段时间,伯克利人工智能研究所(BAIR)的几位研究者提出了一种可根据二维图像重建高分辨率三维形状的方法——分层表面预测(HSP)。BAIR 官网近日发文对该研究成果进行了简单介绍,更多详细信息请阅读原论文。 论文地址:https://arxiv.org/abs/1704.00710
机器之心
2018/05/08
6730
学界 | 伯克利提出分层表面预测:可根据单张彩色图重建高质量3D形状
学界 | UC Berkeley新研究:多视角图像3D模型重建技术
选自BAIR 作者:Abhishek Kar 机器之心编译 参与:李泽南、蒋思源 想象一下图片中的椅子。人类具有无与伦比的推理能力,可以在看到单张图片的情况下想象出整个椅子的 3D 形状——即使你从未
机器之心
2018/05/08
2.2K0
学界 | UC Berkeley新研究:多视角图像3D模型重建技术
NeRF新研究来了:3D场景无痕移除不需要对象,精确到毛发
神经辐射场(NeRF)已经成为一种流行的新视图合成方法。虽然 NeRF 正在快速泛化到更广泛的应用以及数据集中,但直接编辑 NeRF 的建模场景仍然是一个巨大的挑战。一个重要的任务是从 3D 场景中删除不需要的对象,并与其周围场景保持一致性,这个任务称为 3D 图像修复。在 3D 中,解决方案必须在多个视图中保持一致,并且在几何上具有有效性。
机器之心
2023/08/04
4430
NeRF新研究来了:3D场景无痕移除不需要对象,精确到毛发
单图像3D重建,ORG 模型如何统一摄像机参数估计与物体地面关系 ?
在联合物理可行地面的物体重建任务虽然尚未广泛探索,但其重要性不容忽视。这在图像编辑应用领域尤为相关,因为它影响着诸如可控阴影/反射合成和物体视图操作等关键方面。在这项工作中,作者旨在从单一图像中预测物体在3D空间中准确且基于地面的表示,特别是在不受限制的相机条件下。最近的单视图方法在处理物体重建方面显示出巨大潜力。然而,由于缺乏集成的物体-地面建模,使用这些方法重建的物体在放置在平坦表面上时常常显得“悬浮”或“倾斜”,这极大地阻碍了真实感的渲染。
AIGC 先锋科技
2024/08/05
2050
单图像3D重建,ORG 模型如何统一摄像机参数估计与物体地面关系 ?
CVPR2019——MonoDepth2论文阅读
逐像素的真实尺度深度数据的大量获取,是具有挑战性的任务。为了克服这个限制,自监督学习已经成为一个有希望的替代训练模型,用来执行单目深度估计。本文中,我们提出了一系列的改进手段,用来提升自监督深度学习深度估计方法的精度。
zjkkk
2020/05/22
4.8K0
CVPR2019——MonoDepth2论文阅读
清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体
在计算机视觉中,物体级别的三维表面重建技术面临诸多挑战。与场景级别的重建技术不同,物体级别的三维重建需要为场景中的每个物体给出独立的三维表示,以支持细粒度的场景建模和理解。这对 AR/VR/MR 以及机器人相关的应用具有重要意义。
机器之心
2024/01/04
6860
清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分数蒸馏采样 (Score Distillation Sampling),通过优化 3D 场景的神经表达参数,使其在各个视角下渲染的 2D 图片符合大规模预训练的文生图模型分布。然而,尽管这一类方法在单个物体上取得了不错的效果,我们还是很难对具有复杂关节的细粒度人体进行精确建模。
机器之心
2023/12/12
6650
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
上交&微软 | Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识。
公众号-arXiv每日学术速递
2023/08/26
1.2K0
上交&微软 | Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
基于少量图像的三维重建综述
基于少量图像的三维重建被认为是第三代人工智能的经典应用之一。在计算机图形学和计算机视觉领域,基于少量图像的三维重建任务因具有广泛的应用场景和很高的研究价值,长期以来吸引着众多学者的目光。引入深度学习方法后,该领域于近年来得到了长足发展。对此类基于少量图像的三维重建任务进行了全面阐述,并介绍了本研究组在该方面的系列工作,对其中涉及的数据类型进行分析,阐明其适用性和一般处理方法。此外,对常见的数据集进行分析、整理,针对不同重建方法,归纳出其基本框架、思路。最后,展示了一些常见三维重建的代表性实验结果,并提出了未来可能的研究方向。
一点人工一点智能
2023/08/25
1.2K0
基于少量图像的三维重建综述
用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021
编译 | 莓酊 编辑 | 青暮生成辐射场的发展推动了3D感知图像合成的发展。由于观察到3D对象从多个视点看起来十分逼真,这些方法引入了多视图约束作为正则化,以从2D图像学习有效的3D辐射场。尽管取得了进展,但由于形状-颜色的模糊性,它们往往无法捕获准确的3D形状,从而限制了在下游任务中的适用性。在这项研究工作中,来自马普所和港中文大学的学者通过提出一种新的着色引导生成隐式模型ShadeGAN来解决这种模糊性,它学习了一种改进的形状表示。 论文地址:https://arxiv.org/pdf/2110.15
AI科技评论
2022/03/03
7140
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
摘要:三维重建是计算机视觉计算机图形学和机器学习等领域几十年来一个不适定问题。从2015年开始使用CNN解决基于图像的三维重建(image-based 3D reconstruction)有了极大的关注并且展示出强大的性能。在新时代的快速发展下,我们提供了这一领域详细的调研。本文章专注于从RGB图像估计三维物体形状的深度学习方法。除此之外我们还回顾了关于特定物体(如人脸)的近期研究。我们一些重要论文性能的分析和比较,总结这一领域的现有问题并讨论未来研究的方向。
用户1150922
2020/09/10
2K0
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
深度学习新应用:在PyTorch中用单个2D图像创建3D模型
近年来,深度学习在解决图像分类、目标识别、语义分割等 2D 图像任务方面的表现都很出色。不仅如此,深度学习在 3D 图像问题中的应用也取得了很大的进展。本文试着将深度学习扩展到单个 2D 图像的 3D 重建任务中,这是 3D 计算机图形学领域中最重要也是最有意义的挑战之一。
机器之心
2019/04/30
1.9K0
深度学习新应用:在PyTorch中用单个2D图像创建3D模型
“后浪95后”吴尚哲的 CVPR 最佳论文:无需任何监督,即可重建三维图像
我有一张二维照片,能让它变成三维图像么?可以,当前的一些3D电影相册工具,给图片加一个相框也能形成动态效果。
AI科技评论
2020/06/22
9940
“后浪95后”吴尚哲的 CVPR 最佳论文:无需任何监督,即可重建三维图像
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
随着深度学习与 3D 技术的发展,神经辐射场(NeRF)在 3D 场景重建与逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入,神经辐射场便可通过优化隐式函数表示 3D。
机器之心
2023/09/08
5480
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
3D视觉
随着自动驾驶、AR & VR 等技术的发展,3D 视觉的研究正方兴未艾。目前 3D 视觉的两个主要问题是:
hotarugali
2022/05/27
1.4K0
3D视觉
CVPR 2023 | 南洋理工、商汤提出E3DGE:2D图片秒出3D形象
近一两年来,通过使用GAN inversion将真实图片投影到GAN潜在空间,基于2D StyleGAN Inversion的方法在图像语义编辑任务上取得了显著进展。近期出现了一系列 [6,7] 基于StyleGAN结构的3D生成模型研究,然而,相应的通用3D GAN inversion框架仍然缺失,这极大地限制了基于3D GAN模型的重建和编辑相关应用。
AiCharm
2023/07/26
2950
CVPR 2023 | 南洋理工、商汤提出E3DGE:2D图片秒出3D形象
推荐阅读
单视图三维重建
2K0
优Tech分享 | 腾讯优图提出LAP无监督多视角人脸3D重建算法,高清还原面部细节
1.5K1
学界 | 牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术
1.2K0
基于深度学习的RGBD深度图补全算法文章鉴赏
2.3K0
学界 | 伯克利提出分层表面预测:可根据单张彩色图重建高质量3D形状
6730
学界 | UC Berkeley新研究:多视角图像3D模型重建技术
2.2K0
NeRF新研究来了:3D场景无痕移除不需要对象,精确到毛发
4430
单图像3D重建,ORG 模型如何统一摄像机参数估计与物体地面关系 ?
2050
CVPR2019——MonoDepth2论文阅读
4.8K0
清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体
6860
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
6650
上交&微软 | Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
1.2K0
基于少量图像的三维重建综述
1.2K0
用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021
7140
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
2K0
深度学习新应用:在PyTorch中用单个2D图像创建3D模型
1.9K0
“后浪95后”吴尚哲的 CVPR 最佳论文:无需任何监督,即可重建三维图像
9940
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
5480
3D视觉
1.4K0
CVPR 2023 | 南洋理工、商汤提出E3DGE:2D图片秒出3D形象
2950
相关推荐
单视图三维重建
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档