每日学术速递1.4

AiCharm

发布于 2024-01-04 12:21:32

1540

发布于 2024-01-04 12:21:32

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.NoPose-NeuS: Jointly Optimizing Camera Poses with Neural Implicit Surfaces for Multi-view Reconstruction

标题：NoPose-NeuS：联合优化相机姿势与神经隐式曲面以进行多视图重建

作者：Mohamed Shawky Sabae, Hoda Anis Baraka, Mayada Mansour Hadhoud

文章链接：https://arxiv.org/abs/2312.15238

摘要：

从体积渲染中学习神经隐式曲面已成为多视图重建的流行方式。神经表面重建方法可以恢复传统多视图立体 (MVS) 方法难以实现的复杂 3D 几何形状，例如非朗伯表面和薄结构。然而，这些方法的一个关键假设是了解输入多视图图像的准确相机参数，而这些参数并不总是可用。在本文中，我们提出了 NoPose-NeuS，这是一种神经隐式表面重建方法，它扩展了 NeuS，以与几何和颜色网络联合优化相机姿态。我们将相机姿势编码为多层感知器（MLP），并引入两个额外的损失，即多视图特征一致性和渲染深度损失，以约束学习的几何形状，以更好地估计相机姿势和场景表面。在 DTU 数据集上的大量实验表明，所提出的方法可以估计相对准确的相机位姿，同时保持平均 Chamfer 距离为 0.89 的高表面重建质量。

2.Human101: Training 100+FPS Human Gaussians in 100s from 1 View

标题：Human101：从 1 个视图在 100 秒内训练 100+FPS 人类高斯

作者：Mingwei Li, Jiachen Tao, Zongxin Yang, Yi Yang

文章链接：https://arxiv.org/abs/2312.15258

项目代码：https://github.com/longxiang-ai/Human101

摘要：

从单视图视频重建人体在虚拟现实领域发挥着关键作用。一种普遍的应用场景需要快速重建高保真3D数字人，同时保证实时渲染和交互。现有方法通常很难满足这两个要求。在本文中，我们介绍了 Human101，这是一种新颖的框架，擅长通过在 100 秒内训练 3D 高斯并以 100+ FPS 进行渲染，从单视图视频生成高保真动态 3D 人体重建。我们的方法利用了 3D 高斯分布的优势，它提供了 3D 人体的明确且有效的表示。与之前基于 NeRF 的管道不同，Human101 巧妙地应用了以人为中心的前向高斯动画方法来变形 3D 高斯的参数，从而提高了渲染速度（即以令人印象深刻的 60+ FPS 渲染 1024 分辨率图像，并以 512-FPS 渲染） 100+ FPS 分辨率图像）。实验结果表明，我们的方法大大超越了当前的方法，每秒帧数激增 10 倍，并提供可比或更高的渲染质量。

3.RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D

标题：RichDreamer：一种可推广的法线深度扩散模型，用于文本转 3D 中的细节丰富度

作者：Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接：https://arxiv.org/abs/2311.16918

项目代码：https://aigc3d.github.io/richdreamer/

摘要：

由于缺乏几何先验以及自然图像中材质和光照的复杂纠缠，提升 2D 扩散以生成 3D 是一个具有挑战性的问题。现有方法已显示出前景，首先通过应用于渲染表面法线的分数蒸馏采样 (SDS) 创建几何体，然后进行外观建模。然而，由于自然图像和法线贴图之间的分布差异，依靠 2D RGB 扩散模型来优化表面法线并不是最优的，从而导致优化不稳定。在本文中，认识到法线和深度信息有效地描述场景几何形状并从图像中自动估计，我们建议学习一种用于 3D 生成的通用法线深度扩散模型。我们通过对大规模 LAION 数据集以及可推广的图像到深度和正常先验模型进行训练来实现这一目标。为了减轻生成材质中的混合照明效果，我们引入了反照率扩散模型，对反照率组件施加数据驱动的约束。我们的实验表明，当集成到现有的文本到 3D 流程中时，我们的模型显着增强了细节丰富度，实现了最先进的结果。

喜欢的话，请给我个在看吧！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-01-03，如有侵权请联系 cloudcommunity@tencent.com 删除

渲染