MC-NeRF: 多相机神经辐射场

点云PCL博主

发布于 2024-01-17 14:57:25

2720

发布于 2024-01-17 14:57:25

文章被收录于专栏：点云PCL

文章：MC-NeRF: Muti-Camera Neural Radiance Fields for Muti-Camera Image Acquisition Systems

作者：Yu Gao，Lutong Su, Hao Liang，Yufeng Yue， Yi Yang, Mengyin Fu

编辑：点云PCL

文章仅做学术分享，如有侵权联系删文。

文章未申请原创，侵权或转载联系微信cloudpoint9527。

摘要

神经辐射场（NeRF）利用多视图图像进行3D场景表示，并展现出卓越的性能。作为多视图图像的主要来源之一，多摄像头系统面临着诸如固有参数变化和频繁位姿变化等挑战。大多数先前基于NeRF的方法通常假设全局唯一相机，并很少考虑多相机的情况。此外，一些鲁棒位姿的方法在位姿初始化较差时仍然容易受到次优解的影响。在本文中，我们提出了MC-NeRF，一种可以联合优化内外参以进行捆集调整的神经辐射场方法。首先，我们进行了理论分析，以解决由于内外参之间的联合优化而产生的退化情况和耦合问题。其次，基于提出的解决方案，我们引入了一种多摄像头系统的高效标定图像采集方案，包括标定物体的设计。最后提出了一个全局端到端网络，具有训练序列，可以回归内外参以及渲染网络。此外大多数现有数据集都是为唯一相机设计的，我们创建了一个包含四种不同风格的多摄像头采集系统的新数据集，使读者可以生成自定义数据集。实验证实了我们的方法在每个图像对应于不同相机参数时的有效性。具体而言采用了高达110个图像，具有110个不同的内外参，实现了3D场景表示而无需提供初始姿态。代码和补充材料可在https://in2-viaun.github.io/MC-NeRF/获得。

介绍

可视三维重建有助于自动驾驶、多机器人导航和安全监控等领域理解环境。这些场景通常包含大量相机，可以提供丰富的视觉信息，尤其是多视图的透视图。最近，神经辐射场（NeRF）展示了高质量的3D场景表示能力。NeRF的本质是通过利用从多视图图像生成的交叉光约束来学习和重建空间信息。这些信息存储在神经网络中，实现了对场景的隐式表示。NeRF系列方法的一个重要前提是从不同视图获取图像。这些图像通常需要使用全局唯一相机捕获，确保所有图像的摄像机内在参数均匀。具体而言，广泛使用的NeRF数据集，如Synthesis 、LLFF、NSVF和Mip-NeRF 360，为每个场景采用唯一的相机内参，确保射线分布模型在渲染过程中固定。此外，一些经典的3D重建方法也采用了全局唯一相机的假设。例如，运动结构（SFM）假设每个图像的内参相同，以估计各个图像的姿态。MVSNet使用的DTU数据集为每个不同场景使用唯一的相机。基于这个唯一相机的条件，MVSNet构建了一个可微的单应矩阵来创建一个体积代价函数。

然而，在实际场景中，确保多视图图像由全局唯一相机捕获并不总是可行的。一个典型的应用是多相机图像采集系统。我们认为与多相机采集系统相关的以下问题值得关注：首先，由系统捕获的多视图数据中的每个图像对应于不同的内在和外在参数。为了在NeRF系列方法中建立射线分布模型，需要每个图像的精确参数。但是，多相机系统的校准过程可能非常耗时。其次，多个内在矩阵使全局唯一相机的假设失效，这影响了用于估算外在参数的COLMAP等方法的可靠性。此外，多相机采集系统中的摄像机频繁调整，如姿态和数量，甚至摄像机镜头，是常见的操作，伴随着系统的振动和随机摄像机移位。这进一步增加了系统重新校准的频率。总的来说，探索适用于多相机系统的3D重建方法是必要的。

针对上述问题，我们提出了Muti-Cam NeRF（MC-NeRF），一种专为多相机采集系统设计的3D重建方法。该方法能够直接使用不同相机捕获的混合图像进行重建，每个图像都可以对应于完全不同的相机内在参数，而无需任何相机外在参数信息。此外，MC-NeRF实现了端到端训练和全局优化。在训练过程中，可以同时获取每个摄像机的内在和外在参数以及最终的NeRF模型。优化的内在和外在参数可以存储为校准参数，在这种情况下，我们可以直接使用NeRF系列方法进行重建，跳过摄像机参数的优化过程。当系统中的摄像机发生变化（包括内外参）时，只需要再次执行全局优化以获得新的系统校准参数。

值得注意的是，我们的方法也有一些局限性。因为相机内参可以反映图像的真实比例，没有标准比例参考，很难为每个相机获取单独的内参。这需要导入额外的信息进行比例校准。此外，在内在参数回归过程中，我们遇到了一个退化问题，阻止我们获取有效的参数。这意味着上述提到的额外信息需要满足一定的条件，以避免退化。此外，我们还发现相机参数的联合回归导致参数耦合，阻碍了分别获取内在和外在参数。由于这些原因，我们的方法在优化过程中需要辅助校准图像。我们还探讨了校准的基本要求，并提出了一个获取这些辅助图像的高效方案。正如前面讨论的，大多数现有的NeRF数据集都是基于全局唯一相机生成的，无法满足具有混合相机的随机摄像机参数的要求。这激发了我们提出自己的数据集。MC数据集为读者提供了定制相机参数和相机数量的灵活性，允许进行自由组合。总之，本文的贡献如下：

• 我们解决了内参回归中的退化情况和内在和外在参数联合优化中的耦合问题，并为这些挑战提出了相应的解决方案。

• 我们提出了一种联合优化策略，可以同时优化内在参数、外在参数和神经辐射场。

• 我们为多相机图像采集系统设计了一个标定立方体，并提出了一种高效的标定图像采集方案。

• 我们为多相机采集系统提出了一个新的数据集，并提供了数据集生成的源代码，使读者可以自由创建自己的数据集。

内容概述

此工作主要目标是探索一种适用于多摄像头图像采集系统的高效3D表示方法。与先前的NeRF系列方法相比，我们面临的挑战来自每个图像的未知内和外参。

图2：所提出框架的整体分支。1）左侧说明了使用多相机系统（Room Style）进行数据采集的过程。系统中的每个摄像机都固定在一个位置，我们的方法需要两套标定图像和一个物体图像包。2）右侧显示了网络的损失函数分支，包括三个组件。首先，通过利用Pack1和ack2执行由内参和外参重投影损失分支执行的优化，细化粗糙的摄像机内参和外参。其次，利用粗糙的参数，网络继续进行渲染训练，融合光度损失分支。这种联合优化可以获得准确的摄像机参数并细化渲染网络。

所提出的方法如图2所示，包括三个损失函数，可分为两个分支。在训练阶段，我们首先通过联合训练内在和外在重投影损失来获得初始的内在和外在参数，同时屏蔽渲染分支。然后，我们使用初始化的参数来进行所有参数的优化，符号定义见表1。

采用这种策略的原因在于，渲染的输入由内在和外在参数提供，如光度损失分支所示。作为顺序流中的下游组件，渲染网络很容易受到上游输入波动的影响。这意味着当摄像机参数发生剧烈变化时，训练渲染网络可能变得毫无意义。此外，渲染网络采用由粗到细的结构，与内在和外在重投影损失分支相比，包含数量显著更多的参数，导致训练时间大大增加。因此，首先获得初始化的摄像机参数，然后在渲染网络训练中进一步优化它们是一种高效的策略。此外，我们同时使用光度损失分支和内在重投影损失分支进行联合优化，其中内在重投影损失分支的作用是解耦内在和外在参数。

多摄像头内在参数回归

摄像机的内参标定过程

摄像机内参包括尺度因子、主点坐标、尺度因子 α 和 β，以及倾斜参数 c。通过给定世界坐标系中的标定点和对应的像素坐标，可以使用单应性矩阵 H 进行投影关系的建模。通过 SVD 分解和 RQ 分解，可以从 H 中获取摄像机的内参矩阵 K 和外参矩阵 [R | T]。最终，为了保持摄像机内参的正性和符号，引入了一些条件和修正。这一过程是摄像机标定中的基本步骤，用于获取摄像机的准确内外参，为后续的视觉任务提供基础。

训练参数和退化情况

在介绍了多摄像机系统中相机内参矩阵的建模，将其分解为初始化矩阵和可调权重。使用 se(3) 空间中的可调权重进行训练参数，并在损失函数中考虑像素坐标系统。描述了在内参参数回归阶段的损失函数，以及由于退化情况而导致优化无法得到正确解的情况。详细说明了理论方法用于计算相机内参矩阵，即相机标定的问题，以及训练参数的设置和退化情况的分析。最后，介绍了为多摄像机系统设计的校准物体，一个带有Apriltag标签的立方体，以满足非共面三维校准点的要求。具体的退化情况和正常情况在图3中展示。

图3：内参参数回归中的退化情况。当标定图像中只有一个Apriltag时，无法获得有效解。然而，至少两个Apriltags可以确保获取相机的内参参数。

标定立方体设计和说明

对于单摄像头标定而言，多摄像头标定的一些限制和挑战。作者设计了一个特殊的标定器，即标定立方体，以满足多摄像头标定的要求。该立方体的每一面都标有不同的Apriltag标签，提供了非共面的三维标定点。这样的设计避免了在所有标定点共面时产生无效解的问题。通过捕捉标定立方体在共享视场中的图像，作者获得了两个图像集（Pack1和Pack2），用于训练摄像头的粗略外参和校准摄像头的粗略内参。该立方体易于加工，成本低但加工精度高。至于标定点检测，Apriltag支持一种稳定且易于部署的开源算法。图4说明了获取标定数据的过程。首先，所有摄像头捕捉到标定器在共享视场中的图像，其中立方体的中心被定义为世界坐标系的原点。整体而言，这一部分强调了作者为适应多摄像头系统的需要而采取的标定方法和工具的设计。

图4：标定数据获取的详细信息

多摄像头外参回归

一旦获得了粗略的内参，对外参进行的回归就被转化为了一个PNP问题，即透视三点问题。BA方法被广泛应用于解决透视三点（PnP）问题，这意味着我们可以再次利用投影过程优化外参。

世界坐标系

在多摄像头采集系统中的世界坐标系定义问题。通过收集两组辅助数据，即Pack1和Pack2，提到了它们的不同世界坐标系定义。在使用Pack2数据获取相机内参时，也会得到相应的外参，但这些外参的世界坐标系原点是定义在标定立方体中心的。然而，由于标定立方体的随机移动，每个图像的世界坐标系都不一致，因此这些外参对多摄像头采集系统无关且没有实际意义。为了获得每个摄像头的准确位置，PnP优化需要使用Pack1中的Apritag数据重新生成外参。

PnP

透视-多点（PnP）问题以及解决该问题的一种方法，即捆绑调整（Bundle Adjustment，BA）。PnP问题的定义包括在给定世界坐标系中的一组3D点和它们在像素坐标系中的对应坐标的情况下，求解相机的外部参数。BA方法通过最小化图像中投影的3D场景点与其对应的2D图像特征点之间的差异来优化相机的姿态和场景点的位置。损失函数用于衡量优化的效果。研究中使用的损失函数与捆绑调整中常见的损失函数形式相似，通过最小化预测坐标与地面实际坐标之间的误差来进行优化。最后，训练过程中，两个分支同时进行优化，共享相机的内部参数，以及通过PnP优化得到的外部参数。

NeRF与全局优化

首先通过解释为什么NeRF对于全局端到端网络架构是必要的来展开这一部分。然后讨论在联合训练内部和外部参数期间出现的耦合问题。随后在2D图像对齐空间内验证了所提出的方法，这类似于先前的作品，如BARF和L2G。还解释了在这一部分中同时优化所有相机参数和单独优化外参之间的差异。最后介绍了如何设计整个网络并将其从2D图像对齐空间过渡到3D空间的细节。

图6：内参和外参之间的耦合问题。1) 第一行说明了姿态和NeRF的联合优化。在BARF或L2G-NeRF等方法中，其中内部参数已知，可以缓解摄像机参数耦合的问题。2) 第二行展示了所有参数的联合优化。该过程有效地表示涉及缩放、旋转和平移的全局变换。

实验

数据集和硬件平台

基于常用的多摄像头图像采集系统设计了四个数据集，包括半球形风格、球形风格、房间风格和阵列风格。这些数据集共有32组，每组有8个不同的对象。场景风格和数据集结构如图7.

图7：场景风格和数据集结构。左侧显示了不同多摄像头系统的摄像头分布，以及我们数据集中的八个感兴趣的对象。右侧说明了我们数据集的组成。在每种风格中，有八个对象对应于五组数据，包括两组校准数据（P ack1和P ack2），以及训练、验证和测试集。

不同的采样风格涉及不同数量的摄像头，导致不同数量的训练图像。每种风格的验证图像数量等于训练图像数量。数据集的详细信息在图7右侧有说明。由于图像来自具有不同内在参数的摄像头，确定用于生成测试数据的摄像头是有挑战性的。为展示方法在各种摄像头内在参数上的性能，通过连续变化内在参数来生成每组中的200张测试图像。详细的采样过程和参数变化在项目网站上提供。数据集使用Blender 3.3.3生成，每种风格中每个摄像头的内在参数都不同。例如，在HalfBall Style采集系统中，总共有100个摄像头。所有实验都在搭载24GB的NVIDIA RTX 3090上进行，PyTorch版本为1.12.1。

实验1：单一摄像头 vs 多摄像头

在这个实验中，研究旨在探讨NeRF是否能够同时利用多个摄像头的内在参数，实验选择了具有不同视场角（FOV）的摄像头，生成了混合数据集。NeRF在该数据集上进行训练，并与在单独FOV数据集上训练的NeRF的渲染性能进行比较。实验包括一个混合数据集和五个独立数据集，每个数据集有84张图像，外在参数在所有数据集中相同。

图8：NeRF在混合内在数据集和单一内在数据集中渲染性能的比较。

实验结果在图8中呈现，包括地面真实图像、NeRF在每个FOV数据集上训练的结果以及在混合数据集上训练的结果。比较结果显示，使用不同数据集训练的模型表现几乎相等。这表明NeRF在提供准确的摄像头内在和外在参数时，可以有效地处理多摄像头图像。总体而言，实验结论是，提供准确的摄像头参数时，NeRF能够在每个图像对应不同内在参数的情况下有效工作。研究者认为NeRF面临的挑战在于如何为每个摄像头获取准确的内在参数，而内在和外在参数的准确性对NeRF的性能至关重要。

实验2：内参回归

在实验2中，研究的目标是验证所提出的内在参数回归方法的有效性。实验使用了由70个不同FOV的摄像头收集的AprilTag图像。数据集包括三组图像，分别是只包含一个AprilTag的Dataset_A、包含两个AprilTags的Dataset_B和包含三个AprilTags的Dataset_C。

图9：使用不同数量的Apriltag在校准数据中回归内在参数的比较结果。当校准数据中至少包含两个Apriltags时，我们可以达到预期的结果。然而，当只包含一个Apriltag时，会出现退化情况，导致结果不佳。具体而言，在E1中，黑色曲线未能收敛至零，而蓝色和红色曲线均在零附近收敛。

实验结果在图9和表3中呈现。通过对内在参数的平均损失进行比较，发现当图像中只包含一个AprilTag（Dataset_A）时，内在参数无法获取，而且表现类似于退化情况。然而，当图像包含两个以上AprilTags时，回归可以保证收敛。具体而言，使用包含三个AprilTags的数据集训练的参数在准确性上表现更好，而使用包含两个AprilTags的数据集训练的参数则收敛更快。总体而言，实验结果表明，当内在投影损失分支使用至少包含两个AprilTags的数据集进行训练时，可以成功获取摄像机的内在参数。这证实了所提出方法的有效性。然而，如果提供的校准点位于同一平面上，则可能发生退化情况，导致无法获取摄像机内在参数。这种退化情况在所提方法中是可复现的。

实验3：外参回归

在实验3中，研究旨在验证外在参数回归的必要性。BARF和L2G-NeRF方法在处理NeRF和摄像机姿势的联合优化时受到初始外在参数的限制。这两种方法都在地面真实外在参数上添加扰动，导致摄像机姿势漂移，而后尝试在联合优化中纠正。然而，在实际应用中，获得每个摄像机的准确初始位置需要大量准备工作，尤其是对于具有大量摄像机的多摄像头采集系统。

图10，第一行展示了两种方法在四种情景中的随机初始化摄像机姿势，而第二行描述了训练后的稳定摄像机姿势。当摄像机姿势随机初始化时，两种方法都难以获取准确的摄像机外在参数。

实验通过随机提供所有摄像机的初始位置，尝试在四种场景中执行姿势回归，以评估BARF和L2G-NeRF在没有提供潜在姿势信息的情况下的性能。结果显示，当摄像机姿势随机初始化时，这两种方法都难以获取准确的摄像机外在参数。作者指出，由于所提方法采用了BARF引入的渐进对齐技术，摄像机姿势的有效初始化至关重要。值得注意的是，从校准立方体获得的摄像机初始化姿势能够满足L2G-NeRF和BARF的需求。作者选择BARF的原因在于它对NeRF的架构进行了轻微修改，使其易于扩展，并且在上述外在初始化条件下，BARF和L2G-NeRF表现相似。通过比较损失和性能，作者证明了BARF的有效性。总体而言，实验强调了在缺乏潜在姿势信息的情况下，摄像机姿势的良好初始化对于联合优化的成功至关重要。

实验4：平面图像对齐（2D）

实验4旨在比较所提出的方法在2D图像对齐任务中与先前方法的性能，并在没有提供校准点的情况下探索该方法的表现。总体而言，结果显示包含线性变换的BARF和L2G-NeRF都无法产生准确的结果。即使在没有提供校准点的情况下，所提出的方法在实现精密结果方面也面临挑战。特别是在MC-NeRF没有校准点的情况下，损失函数仅包含光度损失，不包括重投影项。

图11：平面图像对齐实验的定性结果。我们可视化了优化的图像变换（顶部行），相应颜色的补丁重建（中间行）以及由fmlp恢复的图像表示（底部行）。带有校准点的MC-NeRF能够恢复准确的对齐和高保真的图像重建。

实验5：固定步长 vs. 全局优化

实验5旨在验证全局优化框架的有效性，并将其性能与固定步长的NeRF渲染方法进行比较。固定步长渲染模拟了使用多摄像头采集系统进行基于NeRF的重建的典型步骤。实验结果表明，全局优化相较于固定步骤方法在渲染图像质量和摄像机参数回归准确性方面表现更好。

图12：Fix-Step NeRF和MC-NeRF的渲染结果。我们可视化了地面实况图像（顶部行），渲染的RGB图像（中间行）以及预测的深度图像（底部行）。由于全局优化，MC-NeRF展现出改善的渲染细节和更清晰的物体边界。

在全局优化阶段，采用了相同的摄像机初始化参数和学习率为0.01的Adam优化器，以确保全局优化方法的摄像机参数与固定步骤方法的参数相似。结果显示，全局优化在图12中产生了更锐利的物体边界和更精细的物体细节，相较于固定步骤方法具有更好的渲染效果。在表6中，全局优化在32个场景中取得了显著的性能提升，特别是在Array Style中获得了最佳得分。虽然在PSNR和SSIM方面，除了Array场景外，MC-NeRF的得分通常较低，但LPIPS指标显示MC-NeRF在所有情况下一直表现优越。

分析显示，尽管MC-NeRF在渲染细节上表现更好，但在物体边界对齐方面存在一些误差。固定步骤NeRF通过保持恒定的摄像机参数在渲染阶段保持固定的射线分布，从而减小了边界对齐的误差。然而，全局优化强制全局光线对齐，表现出更好的渲染效果。对于PSNR而言，清晰边缘对象由MC-NeRF生成时，如果与实际情况不对齐，PSNR分数容易受到背景的影响，导致得分较低。尽管MC-NeRF在边界对齐方面存在一些缺陷，但其高质量渲染被认为更为重要。

至于摄像机参数的回归，如表7所示，全局优化产生更准确的结果，具有显著的改进。证明NeRF在全局优化中作为监督者的有效性。总体而言，所提出的方法通过全局优化在渲染图像和回归参数的准确性方面取得了显著的改进。在这个实验中，我们还注意到实现更高质量的渲染结果不一定与更高的PSNR分数相关，这被认为是联合回归内在和外在参数的特殊情况。LPIPS在这种情况下仍然能够客观反映渲染性能，全局优化的结果始终优于固定步骤方法。

总结

本文提出了适用于多摄像头图像采集系统的多摄像头神经辐射场（MC-NeRF）方法，该方法能够在神经辐射场训练期间联合优化多摄像头内在和外在参数。我们分析了联合优化面临的挑战，包括内在参数退化情况和这些参数之间的强耦合。基于这一分析，我们设计了具有训练序列、校准对象和校准数据采集策略的网络架构。所提出的方法主要解决了在使用多摄像头采集系统进行3D场景表示时获取多摄像头内在和外在参数所需的大量工作量。我们将提供代码和模型供研究社区使用，以促进可重复研究。虽然MC-NeRF允许使用NeRF回归摄像头内在和外在参数，但仍需要获取额外的校准数据。我们认为提出的数据收集方案可以显著减少时间需求并提高准确性，但在涉及人为行为方面仍存在优化的潜力。

为分享的伙伴们点赞吧！