论文名称:High-Fidelity Human Performance Rendering via Compact Gaussian Splatting 作者及机构:Yuheng Jiang, Zhehao Shen, Penghao Wang, Zhuo Su, Yu Hong, Yingliang Zhang, Jingyi Yu, Lan Xu 项目主页:https://nowheretrix.github.io/HiFi4G/ 论文链接:http://arxiv.org/abs/2312.03461 整理人:何冰 内容摘要:在本文中,我们介绍了 HiFi4G,这是一种基于高斯的显式而紧凑的方法,用于从密集镜头中渲染高保真人体表示。我们的核心直觉是将三维高斯表示法与非刚性跟踪相结合,从而实现一种紧凑且易于压缩的表示法。我们首先提出了一种获取运动先验的双图机制,其中粗变形图用于有效初始化,细粒度高斯图用于执行后续约束。然后,我们利用带有自适应时空正则的 4D 高斯优化方案来有效平衡非刚性先验和高斯更新。我们还为各种平台上的沉浸式体验提出了一种带有残差补偿的配套压缩方案。它实现了约 25 倍的可观压缩率,每帧的存储空间不到 2MB。广泛的实验证明了我们方法的有效性,它在优化速度、渲染质量和存储开销方面明显优于现有方法。
HiFi4G 架构如图 1 所示,(a) 首先使用非刚性跟踪建立了一个粗变形图,并跟踪运动进行高斯优化。(b) HiFi4G 使用 NeuS2 初始化第一帧高斯,并构建细粒度高斯图以增强时间一致性。然后,我们利用 ED 图来扭曲 4D 高斯,对高斯图应用
和
约束,从而产生空间-时间紧凑且便于压缩的 4D 高斯,实现高效压缩。最后提出了一套完整的配套压缩方案,使用了传统的残差补偿,量化和熵编码方法,使得每帧的大小小于2MB。
图 1 :HiFi4G架构一览
使用双图结构的目的是将运动和外观分离开来,从而产生一种紧凑且便于压缩的表示。粗粒度变形图用于表示运动,细粒度高斯图用于表示外观。
作者分析了如果使用隐式的变形网络,如此前的 4DGS ,来处理非刚性运动时,会破坏 3DGS 原有的高性能和 GPU 友好的特性。因此选择使用嵌入式变形 (Embedded Deformation, ED) ,利用传统的非刚性变形技术建立模型与模型之间的对应关系。具体来讲,作者使用 NeuS2 网络生成每帧的几何先验信息,随后按照关键帧的方式对得到的网格序列进行非刚性跟踪。这一过程将动作信息参数化为 ED 图,
,其中
为第 i 个 ED 节点在 key 空间的坐标,
表示 SE(3) 空间中相应刚性变换的对偶四元数。 随后,我们使用对偶四元混合法获取每个点
。
其中
表示
的相邻 ED 节点,
表示相应权重。
为了绕过根据运动结构(SfM)点为每帧创建三维高斯的繁琐过程,我们采用了一种更有效的初始化方法。在第一帧中,我们使用重要性采样策略从 NeuS2 网格中构建三维高斯。我们提高了手部和面部区域的采样密度,从而显著改善了视觉质量。
对于后续的关键帧,与关键帧体积更新策略类似,我们采用 3DGS 来剪除上一关键帧中不正确的高斯,并在当前关键帧中对新的高斯进行密度化处理。
然后,我们限制当前片段中高斯的数量。之后,我们建立一个细粒度高斯图,由精炼的高斯核组成,用于后续约束。此外,对于细粒度图中的每个高斯核,我们还找到8个最邻近的 ED 节点,这有助于计算运动插值的影响权重。初始化对于非关键帧仍然至关重要,以防止在可微分光栅化的反向传播过程中陷入局部最优。为此,我们根据 ED 节点的运动插值将高斯图从关键帧翘扭曲到片段内的其他帧:
将对偶四元数转变会变换矩阵,
从对偶四元数转中提取旋转分量。
分别表示在第 k 个关键帧中第i个高斯核的位置信息和旋转信息,
分别表示在第 t 帧中第i个高斯核的位置信息和旋转信息,他们会在后续流程中继续被优化。
利用跟踪先验直接扭曲细粒度高斯图并将其拼接到屏幕空间上,会导致明显的不自然。为了缓解这一问题,我们不使用高斯图在片段内的密集化和剪枝。相反,我们对它们的数量施加了限制,并执行了顺序优化。
针对第 t 帧,将 4D 高斯核的属性分为两组,第一组是与外观相关的参数,包含颜色
,密度
,以及缩放尺寸
;第二组是运动相关的参数,分别是位置
, 旋转
。
利用扭曲高斯图的初始化将训练时间减少到三分之一,同时仍能获得生动的结果。不过,尽管采用了非刚性跟踪先验,我们还是在渲染结果中观察到了明显的时间抖动。因此首先引入了时域正则化项,使得 4D 高斯的外观参数
在时域上连续,用以消除抖动。
如果对运动信息
使用上述正则项会导致不自然。因此引入平滑项来使得运动连贯。
将四元数转换为旋转矩阵。核 i 和核 j 是高斯图上的相邻核。平滑项产生局部尽可能刚性的变形,以约束时空域上一致的四维高斯运动。
此外,与动态区域相比,人类视觉系统对静态区域的细节变化更为敏感。因此,我们加入了自适应权重,将相邻帧之间的位置位移考虑在内, 为静态区域分配更大的权重。
此外,训练过程中应有最初始的光度损失,用于将高斯光栅化混合后的颜色与实际的颜色对齐。
最终的损失函数为:
4D 高斯的压缩流程如图2所示。
图 2 :4D 高斯的压缩流程
关键帧的属性被保留,在其对应切片中计算非关键帧与关键帧属性的残差,这有效限制了各个属性值的分布。
有效地限制了最小的外表相关属性
的方差。而对于运动信息
,简单的减法无法有效地表示切片中的剧烈运动,因此如公式 1,2 所示,我们从关键帧的运动信息
预测当前帧的
,以实现运动残差的窄带分布。
对于关键帧,不量化运动信息,外表信息量化位长为 9 。对于非关键帧,运动信息量化位长为 11 ,外观信息量化位长为 7 。
残差计算与运动补偿相结合,会产生一个聚类为零的属性残差分布。为了利用这种分布进行实时编码和解码,我们采用了范围算术数字系统(RANS)。RANS 利用分布的偏斜性增强了压缩效果,这是满足 HiFi4G 高性能要求的关键因素。我们通过计算每个量化属性的频率并构建频率分布来压缩数据。这种分布有助于使用 RANS 算法对每个属性进行高效编码,在这种算法中,每个属性和编码器的当前状态都会被处理,以更新代表编码数据序列的状态。最终状态以整数流形式存储,供后续解码使用。这种压缩方案实现了约 25 倍的大幅压缩率,将每帧的存储需求降至 2 MB 以下。这种功能有助于在各种平台(包括 VR/AR HMD)上身临其境地观看高保真人体表演。
图 3 :主观图像一览
图 4 :与同类工作比较,HiFi4G 拥有最好的渲染质量。
图 5 :数值结果
对比了 HiFi4G 与其他 SOTA 方法, Instant-NSR 的渲染结果有严重的伪影,由于其重度依赖几何;体渲染方法 NeuS2 和 HumanRF 的渲染结果模糊,对于高频细节过度的平滑;同时,Dynamic 3D Gaussians 由于固定的外观属性,丢失了 3DGS 的优势,无法复原细节的外观以及视角依赖。对比而言,HiFi4G 则通过融合 3DGS 与基于关键帧更新的非刚性追踪,提供了细致的高保真的渲染效果。
图 6 :消融实验以证明各个组件的作用
图 7 :消融实验主观图
舍弃粗粒度 ED 图先验会导致严重的伪影,舍弃高斯图会导致严重的精度丢失和不自然的渲染。考虑正则项,
的删除会导致压缩后出现不自然的伪影,
的删除会导致模糊的输出。将权重
替换为常数会导致肉眼可见的模糊。
图 8 :残差补偿方法
图 8 从左到右: (a) 为参考图像,(b) 为压缩前的图像,(c)为不使用残差补偿方法时高量化位长的图像,(d)为不使用残差补偿方法时低量化位长的图像,(e) 为使用残差补偿方法时低量化位长的图像,即本文方案。
图 9 :高斯核数量与渲染质量关系,200,000 的 4D 高斯核可以实现高保真人物模型的渲染,适合 集成于 VR 应用中。
在单张 Nvidia GeForce RTX3090 GPU上各个步骤花费时间,该时间包括了前处理以及训练的时间。每帧场景需要花费小于 7min 的时间进行训练。
图 10 :各个步骤花费时间一览
首先,HiFi4G 在很大程度上依赖于分割,分割不佳会导致明显的伪影,尤其是在人与物体互动的场景中。其次,尽管 HiFi4G 在生成 4D 高斯核方面很高效,但高斯优化过程仍需要数分钟,加速这一训练过程对未来的研究至关重要。此外,目前 4D 高斯对快速 GPU 排序的依赖限制了 HiFi4G 在网络浏览器和移动设备上的部署。