点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Implicit Autoencoder for Point Cloud Self-supervised Representation Learning(ICCV 2023)
标题:用于点云自监督表示学习的隐式自动编码器
作者:Siming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang
文章链接:https://arxiv.org/abs/2201.00785
项目代码:https://github.com/SimingYan/IAE
摘要:
本文主张在基于自动编码器的自监督 3D 表示学习中使用隐式表面表示。最流行且易于访问的 3D 表示(即点云)涉及底层连续 3D 表面的离散样本。这种离散化过程引入了 3D 形状的采样变化,使得开发真实 3D 几何的可转移知识变得具有挑战性。在标准自动编码范例中,编码器不仅必须将 3D 几何形状编码,还要将有关 3D 形状的特定离散采样的信息编码到潜在代码中。这是因为除非原始点云和重建点云之间存在完美的映射,否则解码器重建的点云被认为是不可接受的。本文介绍了隐式自动编码器(IAE),这是一种简单而有效的方法,通过用隐式解码器替换常用的点云解码器来解决采样变化问题。隐式解码器重建 3D 形状的连续表示,与离散样本中的缺陷无关。大量实验表明,所提出的 IAE 在各种自监督学习基准中实现了最先进的性能。
2.Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D Data
标题:视图集扩散:来自 2D 数据的 (0-) 图像条件 3D 生成模型
作者:Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
文章链接:https://arxiv.org/abs/2306.07881
项目代码:https://szymanowiczs.github.io/viewset-diffusion
摘要:
我们提出了 Viewset Diffusion:一个用于根据 2D 数据训练图像条件 3D 生成模型的框架。图像条件 3D 生成模型使我们能够解决单视图 3D 重建中固有的模糊性。给定一个对象的一张图像,通常有多个可能的 3D 体积与输入图像匹配,因为单个图像永远无法捕获对象的所有侧面。确定性模型本质上仅限于产生一种可能的重建,因此在不明确的设置中会出错。对 3D 形状的分布进行建模具有挑战性,因为 3D 地面实况数据通常不可用。我们建议通过训练联合对多视图图像集进行去噪的扩散模型来解决数据可用性问题。我们将视图集扩散模型的输出限制为每个图像集的单个 3D 体积,从而保证几何形状的一致性。训练是通过渲染的重建损失来完成的,允许每个对象仅使用三张图像进行训练。我们的架构和训练方案设计允许我们的模型以前馈方式执行 3D 生成和生成、模糊感知单视图重建。项目页面:这个http URL。
3.AutoDecoding Latent 3D Diffusion Models
标题:自动解码潜在 3D 扩散模型
作者:Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
文章链接:https://arxiv.org/abs/2307.05445
项目代码:https://snap-research.github.io/3DVADER/
摘要:
我们提出了一种以 3D 自动解码器为核心的静态和铰接 3D 资产生成的新颖方法。3D 自动解码器框架将从目标数据集学习到的属性嵌入到潜在空间中,然后可以将其解码为体积表示,以渲染视图一致的外观和几何形状。然后,我们确定适当的中间体积潜在空间,并引入强大的归一化和反归一化操作,以从刚性或铰接物体的 2D 图像或单眼视频中学习 3D 扩散。我们的方法足够灵活,可以使用现有的摄像机监督或根本不使用摄像机信息,而是在训练期间有效地学习它。我们的评估表明,我们的生成结果在各种基准数据集和指标上都优于最先进的替代方案,包括合成对象的多视图图像数据集、移动人物的真实野外视频以及大规模、静态对象的真实视频数据集。