媒矿工厂-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

媒矿工厂

专栏成员

917

文章

1142686

阅读量

239

订阅数

TPAMI 2024 | 记忆机制提升 TalkingFace 生成

渲染模型视频数据音频

说话脸生成技术可以根据输入的音频合成与目标人物相符的逼真视频肖像。它在虚拟化身、在线会议和动画电影等应用中展现了巨大的潜力，因为它不仅传达了感兴趣人物的音频内容，还提供了视觉内容。

2024-06-13

1120

SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes

渲染动画模型视频优化

图 1：我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状，以表情系数线性混合，实时合成逼真的人脸动画。

2024-06-13

2640

CVPR2024 | HUGS：人体高斯溅射

渲染工作模型视频数据

真实渲染和人体动态是一个重要的研究领域，具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL，直接从视频生成3D化身来解决这些问题，这些模型具有高效光栅化和适应未见变形的能力。然而，参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身，通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色，超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而，它们也有不足，特别是在训练和渲染效率方面较低。

2024-05-31

2600

CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场

模型数据优化渲染函数

从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然而,大部分基于稀疏视图的NeRF实现速度较慢,内存消耗也较大,导致时间和计算成本很高,限制了它们的实际应用。

2024-05-31

5360

CVPR 2024 | Scaffold-GS：自适应视角渲染的结构化 3D 高斯

渲染存储函数模型数据

神经辐射场利用基于学习的参数模型来产生连续的渲染图像，并保留更多的细节。然而，其耗时的随机采样，会导致性能下降和出现潜在的噪声。

2024-05-20

7670

CPEM：通过身份一致性和表情独占约束实现精确的面部运动重定向

渲染函数模型网络重定向

现有方法通常将该问题表述为三维人脸重建问题，该问题从人脸图像中估计人脸身份和表情等人脸属性。然而，由于缺乏身份和表情的ground-truth标签，大多数基于3d人脸重建的方法都不能准确地捕捉人脸的身份和表情。因此，这些方法可能无法实现预期的性能。

2024-05-11

2000

CVPR 2024 | SC-GS: 可编辑动态场景中的系数控制高斯溅射

数据优化渲染函数模型

最近，高斯溅射作为一种表示场景为 3D 高斯点的方法，显示出在渲染质量、分辨率和速度方面的显著性能。然而，现有的高斯溅射公式只适用于静态场景，将对象运动整合到高斯表示中而不损害渲染质量和速度仍然是一个挑战。

2024-04-26

3960

CVPR 2024 | ConTex-Human：纹理一致的单视图人体自由视图渲染

数据优化渲染框架模型

自由视角人体合成或渲染对于虚拟现实、电子游戏和电影制作等各种应用都是必不可少的。传统方法通常需要密集的相机或深度传感器来重建几何形状并细化渲染对象的纹理，从而产生繁琐和耗时的过程。

2024-04-26

3690

GES: 通用指数高斯用于高效渲染

优化渲染函数内存效率

在游戏、电影和元宇宙中追求更具吸引力和沉浸式的虚拟体验，需要在视觉丰富性和计算效率之间平衡的三维技术进步。在这方面，三维高斯散点（GS）是对神经辐射场的最新替代方案，用于学习和渲染三维对象和场景。GS将场景表示为大量小的、有色的高斯模型。其主要优势是存在一个非常快速的可微渲染器，这使得这种表示非常适合实时应用，并显著降低了学习成本。具体来说，快速渲染可学习的三维表征对于游戏等应用至关重要，这些应用需要高质量、流畅且响应迅速的图形。

2024-04-19

1820

CVPR 2024 | VastGaussian：用于大型场景重建的3D高斯

优化渲染论文内存数据

基于NeRF的方法在处理大型场景时，渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈，难以扩展到大型场景。

2024-04-12

1K0

FSGS: 基于 Gaussian Splatting 的实时 Few-shot 视角合成

gaussian 论文数据优化渲染

新视角合成是计算机视觉和图形学领域中一项长期存在并且富有挑战的任务。过去两年，NeRF及其衍生工作的提出将该任务提升到了新的高度。然而，基于NeRF的方法的训练和渲染需要大量的成本才能达到理想的效果，比如稠密的输入视角和耗时的训练与渲染。尽管后续的一些稀疏视角NeRF的工作以及InstantNGP的提出在一定程度上解决了部分缺陷，但NeRF方法始终没有做到实时和高质量的高分辨率渲染。

2024-04-12

6220

ICCV 2023 | 单阶段扩散神经辐射场：3D生成与重建的统一方法

渲染测试论文模型数据

在计算机视觉和图形领域，由于神经渲染和生成模型的进步，三维视觉内容的合成引起了显著关注。尽管出现了许多处理单个任务的方法，例如单视图/多视图三维重建和三维内容生成，但开发一个综合框架来整合多个任务的最新技术仍然是一个主要挑战。例如，神经辐射场（NeRF）在通过每个场景的拟合解决逆向渲染问题方面展示了令人印象深刻的新视图合成结果，这适用于密集视图输入，但难以泛化到稀疏观察。相比之下，许多稀疏视图三维重建方法依赖于前馈图像到三维编码器，但它们无法处理遮挡区域的不确定性并生成清晰的图像。在无条件生成方面，三维感知的生成对抗网络（GAN）在使用单图像鉴别器方面部分受限，这些鉴别器无法推理跨视图关系以有效地从多视图数据中学习。在这篇论文中，作者通过开发一个全面模型来从多视图图像中学习可泛化的三维先验，提出了一种统一的方法来处理各种三维任务。受到二维扩散模型成功的启发，论文提出了单阶段扩散NeRF（SSDNeRF），它使用三维潜在扩散模型（LDM）来模拟场景潜在代码的生成先验。虽然类似的LDM已经应用于之前工作中的二维和三维生成，但它们通常需要两阶段训练，其中第一阶段在没有扩散模型的情况下预训练变分自编码器（VAE）或自解码器。然而，在扩散NeRF的情况下，作者认为两阶段训练由于逆向渲染的不确定性特性，特别是在从稀疏视图数据训练时，会在潜在代码中引入噪声模式和伪影，这阻碍了扩散模型有效地学习清晰的潜在流形。为了解决这个问题，论文引入了一种新的单阶段训练范式，使扩散和NeRF权重的端到端学习成为可能。这种方法将生成和渲染偏差协调地融合在一起，整体上提高了性能，并允许在稀疏视图数据上进行训练。此外，论文展示了无条件扩散模型学习到的三维先验可以在测试时从任意观察中灵活地采样用于三维重建。论文在多个类别单一对象场景的数据集上评估了SSDNeRF，整体展示了强大的性能。论文的方法代表了朝着各种三维任务统一框架的重要一步。总结来说，论文的主要贡献如下：

2024-03-20

3210

AAAI 2024 | 深度引导的快速鲁棒点云融合的稀疏 NeRF

数据效率渲染函数模型

具有稀疏输入视图的新视角合成方法对于AR/VR和自动驾驶等实际应用非常重要。大量该领域的工作已经将深度信息集成到用于稀疏输入合成的NeRF中，利用深度先验协助几何和空间理解。然而，大多数现有的工作往往忽略了深度图的不准确性，或者只进行了粗糙处理，限制了合成效果。此外，现有的深度感知NeRF很少使用深度信息来创建更快的NeRF，总体时间效率较低。为了应对上述问题，引入了一种针对稀疏输入视图量身定制的深度引导鲁棒快速点云融合NeRF。这是点云融合与NeRF体积渲染的首次集成。具体来说，受TensoRF的启发，将辐射场视为一个的特征体素网格，由一系列向量和矩阵来描述，这些向量和矩阵沿着各自的坐标轴分别表示场景外观和几何结构。特征网格可以自然地被视为4D张量，其中其三个模式对应于网格的XYZ轴，第四个模式表示特征通道维度。利用稀疏输入RGB-D图像和相机参数，我们将每个输入视图的2D像素映射到3D空间，以生成每个视图的点云。随后，将深度值转换为密度，并利用两组不同的矩阵和向量将深度和颜色信息编码到体素网格中。可以从特征中解码体积密度和视图相关颜色，从而促进体积辐射场渲染。聚合来自每个输入视图的点云，以组合整个场景的融合点云。每个体素通过参考这个融合的点云来确定其在场景中的密度和外观。

2024-03-07

6390

CVPR 2023 | ReRF：用于流媒体自由视视频的神经残差辐射场

视频压缩渲染存储流媒体

真实的自由视角视频（Free-Viewpoint Videos，FVVs），尤其是人物表演这一类的动态场景，可以缩小表演者与观众之间的距离。但是将生成和观看 FVVs 变得像点击和观看常规 2D 视频一样简单，仍然是非常困难的目标。面临包括从数据处理和压缩到流媒体和渲染的各个方面的挑战。

2024-02-21

2360

HiFi4G: 通过紧凑高斯进行高保真人体性能渲染

优化渲染量化性能压缩

HiFi4G 架构如图 1 所示，(a) 首先使用非刚性跟踪建立了一个粗变形图，并跟踪运动进行高斯优化。(b) HiFi4G 使用 NeuS2 初始化第一帧高斯，并构建细粒度高斯图以增强时间一致性。然后，我们利用 ED 图来扭曲 4D 高斯，对高斯图应用

2024-01-24

4130

嵌入基础模型的高斯溅射

渲染编码对象基础模型

3D场景理解是计算机视觉和机器人应用中的重要任务。然而，大多数现有方法主要集中在3D几何和外观估计或基于封闭类别数据集的3D对象检测和场景分割上。然而，为了使智能代理能够与物理世界平稳互动，仅仅理解由预先识别的标签特征化的空间子集是不足够的。受最新的基础模型在语言和视觉语义方面取得的进展所启发，本方法旨在开发更自然的3D场景表示。它整合了几何和开放词汇语义信息，便于后续任务中用语言查询。

2024-01-24

3090

DELTA: 利用混合 3D 表示学习分离式化身

渲染函数模型视频优化

图 1：(a)分离式头部：给定单目视频输入，DELTA 输出分离的基于网格的人脸和基于 NeRF 的头发。(b)分离式人体：给定单目视频输入，DELTA 输出分离的基于网格的人体和基于 NeRF 的服装。(c)利用 DELTA 学习到的分离的头发和服装，我们可以轻松地将任何头发和服装转移到由单张图像估计得到的人体上。

2024-01-11

3180

GaussianEditor：快速可控的3D高斯编辑

渲染对象函数设计算法

开发用户友好的 3D 表征和编辑算法是计算机视觉领域的一个关键目标。NeRF等隐式三维表征具有高保真的渲染能力，但其限制了对场景部分的直接修改，使得编辑任务更为复杂，阻碍了实际应用。基于这些挑战，本文额定研究重点是开发一种先进的三维编辑算法，该算法旨在灵活快速地编辑3D场景，集成隐式编辑（如基于文本的编辑）和显式控制（如特定区域修改的边界框使用）。为了实现这些目标，作者选择高斯表征（GS）进行实时渲染和显式点云表示。本文提出的 GaussianEditor 提供快速、可控和通用的 3D 编辑功能。单个编辑会话通常只需要 5-10 分钟，比以往的编辑过程快得多。本文的贡献可以概括为四个方面：

2024-01-04

6380

动态三维高斯：通过持续动态视图合成进行跟踪

渲染 text 函数数据优化

动态3D世界建模将对判别式和生成式人工智能产生变革性影响。在判别式方面，这将实现对场景每一部分随时间变化的度量空间重建。模拟一切当前的位置、过去的位置及其移动方向，对许多应用至关重要。在生成式人工智能中，这样的模型可以实现诸如轻松控制和编辑高分辨率动态3D资源等新形式的内容创作，用于电影、视频游戏或元宇宙。许多此类应用需要可扩展的方法，能够实时处理高分辨率图像。到目前为止，还没有方法能够实现对任意动态场景的逼真重建，同时具备高度精确的追踪和视觉上吸引人的新视角，而且能够快速训练并实时渲染。

2023-12-28

6420

SIGGRAPH Asia 2023 | Im4D：动态场景的高保真实时新视角合成

渲染二进制模型视频网络

动态视图合成是在给定输入视频的情况下渲染出真实动态场景的新视图，这是计算机视觉和图形学中一个长期存在的研究问题。这个问题的关键在于从多视角视频中有效地重建动态场景的 4D 表示，并允许在任意视点和时间上保持高保真度和实时渲染。

2023-12-28

4270

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态