CVPR 2023 | ReRF：用于流媒体自由视视频的神经残差辐射场

用户1324186

发布于 2024-02-21 17:35:24

4150

来源：CVPR 2023 题目：Neural Residual Radiance Fields for Streamably Free-Viewpoint Videos 作者：Liao Wang, Qiang Hu, Qihan He, Ziyu Wang, Jingyi Yu,Tinne Tuytelaars, Lan Xu, Minye Wu. 项目主页：https://aoliao12138.github.io/ReRF/ 内容整理：陈梓煜神经辐射场成功建模和自由视角渲染静态物体的经验，激发了对动态场景的研究兴趣。当前使用神经渲染进行自由视角视频（FVV）处理的技术存在一些限制，要么局限于离线渲染，要么只能处理短暂序列以及较小的运动。本文引入了一种名为 ReRF 的新技术，它是一种高度紧凑的神经表示方法，旨在实现在长时间动态场景中的实时 FVV 渲染。ReRF 专门建模了在时空特征空间中相邻时间戳之间的残差信息，采用全局坐标为基础的小型多层感知器（MLP）作为特征解码器。具体而言，ReRF 使用了一个紧凑的运动网格和一个残差特征网格，以有效地利用帧间特征的相似性。这一策略使 ReRF 能够处理大幅度的物体运动而不降低渲染质量。此外，我们提出了一个顺序训练方案，以确保运动和残差网格的平滑性和稀疏性。基于 ReRF，我们设计了一种特殊的 FVV 编解码器，实现了比传统方法高三个数量级的压缩率，并提供了一个 ReRF 播放器，用于支持在线流式传输长时间动态场景的 FVV。大量实验结果证明了 ReRF 在紧凑表示动态辐射场方面的有效性，从而实现了前所未有的自由视角查看体验，并且兼顾速度和质量。

介绍

图 1

真实的自由视角视频（Free-Viewpoint Videos，FVVs），尤其是人物表演这一类的动态场景，可以缩小表演者与观众之间的距离。但是将生成和观看 FVVs 变得像点击和观看常规 2D 视频一样简单，仍然是非常困难的目标。面临包括从数据处理和压缩到流媒体和渲染的各个方面的挑战。

基于几何的方法可以重建动态 3D 网格或点，而基于图像的方法可以在密集传输的镜头中插值出新的视角。这两种技术都依赖于高质量的重建，通常容易受到遮挡和无纹理区域的影响。而 NeRF 提供了一种绕过显式几何重建的替代方法。神经辐射场（Neural Radiance Field，NeRF）开创性地通过以坐标为输入的多层感知器（Multi-Layer Perceptron，MLP）紧凑地表示静态场景，以进行真实的图像渲染。然而，即使使用中等深度的 MLP 也难以进行实时渲染。因此，各种延伸方法使用混合或更新颖的表示来压缩特征空间，以在计算速度和准确性之间达到微妙的平衡。例如哈希编码，三平面等。

但是几乎所有方法迄今都是针对处理静态场景而设计的。相比之下，流媒体动态辐射场需要使用全局坐标为基础的 MLP，将特征从空间和时间上连续的特征空间解码为辐射输出。一种直接逐帧解决方案是在一系列独立的空间特征空间上应用静态方法。这种方案会丢弃重要的时间一致性，导致长序列的低质量和低效率。最近的方法试图通过在全局规范空间内对其进行时间变形，以在每个实时帧中复制特征来维护一个规范特征空间。通过采用隐式匹配或数据驱动的先验，如深度、傅里叶特征、光流或骨骼面部运动先验，提出了各种补偿时间运动的方案。然而，过于依赖全局规范空间会使它们对大幅度运动或拓扑变化变得不稳定。与此同时，根据序列长度，训练的开销也会显著增加。

ReRF 提出一种“残差辐射场”（Residual Radiance Field，ReRF），作为动态场景的高度紧凑表示，实现高质量的 FVV 流媒体和渲染（见图 1）。ReRF 明确地模拟了相邻时间戳之间的时空特征空间中辐射场的残差。具体而言，本方法采用全局小 MLP 以顺序方式近似动态场景的辐射输出。为了在训练和推断中保持高效率，ReRF 使用类似于的显式网格表示来模拟特征空间。然而，ReRF 只对第一个关键帧进行训练，以获得整个序列的 MLP 解码器，同时使用生成的网格体素作为初始特征体积。对于每个随后的帧，ReRF 使用紧凑的运动网格和残差特征网格：低分辨率的运动网格表示当前帧与上一帧之间的位置偏移，而稀疏的残差网格用于补偿错误和新观察到的区域。这种设计的一个主要优点是 ReRF 充分利用了相邻帧之间的特征相似性，其中当前帧的完整特征网格可以简单地从两者中获取，同时避免使用全局规范空间。此外，运动和残差网格都易于压缩，特别是对于长时间动态场景。

本方法提出了一种通过顺序训练从 RGB 视频高效获得 ReRF 的两阶段方案。具体而言，本方法提出了一种运动池化策略，以维护帧间运动网格的平滑性和紧凑性，同时引入了稀疏正则化器以提高 ReRF 的紧凑性。为了让 ReRF 在应用层面更为实用，本方法进一步设计了一个基于 ReRF 的编解码器，遵循传统的基于关键帧的策略，与每帧的神经表示相比，实现了三个数量级的压缩率。最后，本方法展示了一个适用于在线流媒体长时间动态场景的 ReRF 播放器。通过 ReRF，用户首次可以像观看 2D 视频一样暂停、播放、快进/快退和查找动态辐射场，实现了前所未有的高质量自由视角观看体验。

方法

图 2

基于运动的残差场

在 NeRF 中，颜色和密度

({c},\sigma)

被公式化为

{c},\sigma = \Psi({x},{d})

，其中使用 MLP 作为解码器，给定 3D 位置

{x}

和观察方向

{d}

。然后，采用体积渲染来进行基于辐射场的新视角合成。为了在训练和推理中保持高效性，ReRF 使用与之前工作类似的显式网格表示。具体而言，使用显式密度网格

{V}_{\sigma}

和颜色特征网格

{V}_{c}

，静态场景的辐射场表示为：

\begin{split} \sigma &= interp({x},{V}_{\sigma}) \\ {c} &= \Phi(interp({x},{V}_{c}),{d}), \end{split} \quad (1)

其中

interp(\cdot)

表示网格上的三线性插值函数，

\Phi

是相对较浅的MLP用于加速。为了简化，本方法可以将

{V}_{\sigma}

和

{V}_{c}

合并为一个通用的特征网格

{f}

，通过在

{V}_{c}

中附加一个额外的通道来实现。因此，静态辐射场的显式网格表示包括特征网格

{f}

和一个小型MLP

\Phi

作为隐式特征解码器。

为了进一步表示动态辐射场，本方法采用坐标为基础的小型MLP

\Phi

作为空间-时间特征空间的全局特征解码器。一个直接的解决方案是在动态场景的每帧上使用特征网格

\{{f}_t\}_{t=1}^N

，但会丧失重要的时间一致性。最近的工作DeVRF通过在全局规范空间内维护一个基准特征网格

{f}_1

和密集的运动场

\{{D}_t\}_{t=1}^N

来复制每个实时帧中的特征，但由于依赖规范空间，容易受到大幅度运动或拓扑变化的影响。与之前的工作不同，本方法建议明确地在相邻时间戳之间的时空特征空间中利用特征的相似性。在这里，本方法为当前帧

引入紧凑的运动网格

{M}_t

和残差特征网格

{r}_t

。低分辨率的运动网格

{M}_t

表示了当前帧中的每个体素与上一帧中的体素之间的位置偏移。残差网格

{r}_t

表示了当前帧中的体素的稀疏补偿，用于补偿相邻帧之间的差异和新观察到的区域。这种设计的主要优点之一是ReRF充分利用了相邻帧之间的特征相似性，其中当前帧的完整特征网格可以简单地从两者中获取，同时避免了使用全局规范空间。此外，运动和残差网格都易于压缩，特别是对于长时间动态场景。

图 3

顺序残差场生成

本方法介绍了一个两阶段和顺序训练方案，以从长时间RGB视频输入中获得包括

\Phi

、

{f}_1

和

\{{M}_t,{r}_t\}_{t=1}^N

的ReRF表示，从而自然地强制残差和运动网格的紧凑性。在一开始，本方法使用现成的方法来获取第一帧的完整显式特征网格

{f}_1

，伴随全局MLP

\Phi

作为特征解码器。然后，在给定前一帧的特征网格

{f}_{t-1}

和当前帧的输入图像的情况下，本方法紧凑地生成以下两个阶段中的运动网格

{M}_t

和残差网格

{r}_t

。

运动网格估计

首先，本方法遵循DeVRF的方法来生成当前帧到前一帧的密集运动场

{D}_t

，但只从当前帧到前一帧。为了保持平滑和紧凑的运动网格

{M}_t

，本方法进一步引入了运动池化策略。体素

{p}_{t}

中的运动向量可能指向前一帧中的不同体素

{p}_{t-1}

。

因此，类似于标准平均池化操作，本方法选择均值向量指向的体素

{\bar p}_{t-1}

作为体素运动

{M}_t({p}_{t}) = {\bar p}_{t-1}

。具体而言，本方法首先将

{D}_t

分割成立方体，其中每个立方体包含连续的

8\times 8 \times 8

个体素。然后，对于每个立方体，本方法在

8\times 8 \times 8

的内核上对

{D}_t

进行平均池化，以确保每个立方体共享相同的运动向量。之后，本方法将其降采样以生成低分辨率的运动网格

{M}_t

。注意，本方法紧凑的运动网格

{M}_t

是易于压缩的，因为其大小比原始密集网格小512倍。这样，前一帧中的一些特征立方体可以通过运动场进行跟踪，从而进一步降低残差体素的熵。通过这种方式，本方法生成了一个低分辨率的

{M}_t

，以紧凑地表示跨帧的平滑运动。

残差网格优化

在紧凑的运动网格

{M}_t

的帮助下，本方法将先前的特征网格

{f}_{t-1}

翘曲成当前的基础特征网格

{\hat f}_{t}

，从而粗略地补偿了因帧间运动引起的特征差异。在优化残差网格时，本方法固定

{\hat f}_{t}

和

\Phi

并将梯度反向传播到残差网格

{r}_t

，以仅更新

{r}_t

。除了光度损失外，本方法还通过使用L1损失对

{r}_t

进行正则化，以增强其稀疏性以提高紧凑性。这种稀疏的表述也强制

{r}_t

仅补偿了帧间残差或当前帧中新观察到的稀疏信息。学习

{f}_t

的总损失函数

{L}_{total}

如下所示：

L_{total} = \sum_{l \in \mathbb L}||c(l)-\hat c(l)||^2 + \lambda ||r_t||_1 \quad (2)

实验

对 ReRF 在各种具有挑战性的场景中进行评估。本方法的捕获的动态数据集包含约 74 个视图，分辨率为 1920×1080，帧率为 25fps。本方法使用 PyTorch 框架在单个 NVIDIA GeForce RTX3090 上训练所提出的网络。本方法还实现了一个伴随的 ReRF 播放器，用于在线流式传输长序列的动态场景。为了验证所提出的 ReRF 播放器的有效性，本方法使用一台 PC，配备 Intel(R) Core(TM) i9-11900 CPU @ 2.5 GHz 和 NVIDIA GeForce RTX3090 GPU 作为测试平台。在实验中，每个 GOF 的长度设置为 20。正如在图 4，本方法可以在具有长序列和大幅挑战性运动的内部 360° 和前向场景中生成高质量的外观结果。本方法的方法可以通过调整图 4 第三行所示的量化因子来灵活地调整存储。

图 4

方法对比

图 5

本方法提供实验结果，以展示本方法提出的 ReRF 方法的有效性。本方法将其与其他用于动态场景的最先进方法进行了定性和定量比较，包括 DeVRF、DVGO、INGP、INGP-T 和 TiNeuVox。INGP-T 是一种修改后的时间条件 NGP 版本。它将标准化的 4D 输入

[x,y,z,t]

作为哈希表输入。在图 5 中，本方法报告了不同方法的视觉质量结果，与本方法的 ReRF 压缩方法在短序列和长序列上进行了比较。具体而言，本方法的方法可以实现与逐帧重建的 DVGO 和 INGP 相媲美的逼真的自由视角渲染，但存储开销要小得多。与动态重建方法（DeVRF、INGP-T、TiNeuVox）相比，本方法在逼真度和清晰度方面实现了最生动的渲染结果，此外，不会在长序列中失去性能。DeVRF 从实时帧到第一帧学习明确的变形场。当运动较大，特别是在长序列中时，直接从第一帧进行变形是困难的。INGP-T 和 TiNeuVox 随着帧数的增加遭受严重的模糊效应。请注意，无论帧数如何增加（甚至达到 4000 帧），本方法的方法始终保持高逼真度和清晰度，如图 6 所示。

图 6

对于定量比较，本方法采用峰值信噪比（PSNR）和结构相似性指数（SSIM）作为评估渲染准确性的指标。本方法选择 70 个捕获的视图作为训练集，其他 4 个视图作为测试集。在表 1 中，本方法展示了本方法可以有效地使用小型存储来获得高质量的结果。在具有大运动的长序列中，本方法的方法在外观方面优于其他动态方法。另外，请注意本方法的方法可以实现快速训练（每帧约 10 分钟）和快速渲染（20fps），比 NeRF 和许多先前的方法快得多。

表 1

存储分析

本方法在表 2 中展示了本方法的高质量版本中各个组件的存储情况。本方法报告了本方法压缩后的残差特征、体素运动场、PCA 反投影矩阵

V^T

以及其他信息，包括用于指示空白空间和头文件信息的掩码的平均比特率。请注意，本方法的总体平均模型大小为 793KB，比原始模型大小小了三个数量级。

表 2

运行时分析

如表 3 中所示，在 ReRF 播放器的每个阶段中，本方法展示了每帧处理时间的详细分析。每帧解码和渲染的平均时间分别约为 47.03 毫秒和 44.62 毫秒。此外，解码时间和渲染时间相近，更有利于并行处理。播放器的总处理时间，通过并行解码和渲染实现，约为 50 毫秒。用户可以以高帧率流畅地体验自由视角视频，就像在 YouTube 上观看 2D 视频一样。