中科大提出 SparseLGs: 稀疏视图语言嵌入式高斯扫描！

AIGC 先锋科技

发布于 2025-02-20 00:01:04

580

近年来，一些研究将Gaussian Splatting与语言嵌入结合，用于开放词汇的3D场景理解。虽然这些方法表现良好，但本质上需要非常密集的多视角输入，这限制了它们在实际应用场景中的适用性。在这项工作中，作者提出了一种名为SparseLGS的方法，以应对无姿态和稀疏视图输入图像下的3D场景理解挑战。

作者的方法利用基于学习的稠密立体模型来处理无姿态和稀疏输入，并采用三步区域匹配方法来解决多视角语义不一致性问题，这对稀疏输入尤为重要。

与直接学习高维CLIP特征不同，作者提取低维信息并建立双射关系，以避免过多的学习和存储成本。作者在语义训练过程中引入重建损失，以提高Gaussian位置和形状。据作者所知，作者是首个使用稀疏无姿态输入解决3D语义场问题的研究。实验结果显示，在较少的输入（3-4个视图）下，SparseLGS在重构语义场的质量上达到了与先前最佳方法相当的表现。此外，当使用相同稀疏输入时，SparseLGS在质量和计算速度上有显著提升（提高5倍）。

与逐视角渲染 Mask 分割更为类似，这种方法高度依赖于数据的语义注解，并缺乏对开放语言 Query 的能力。为了解决这些问题，LERF [16]从语言-图像模型CLIP中蒸馏出所需的特征，并将其整合到NeRF中。

然而，NeRF中缓慢的训练过程和 Voxel 渲染的 Bottleneck ，以及由于CLIP特征是图像对齐而非区域或像素对齐导致的质量限制，仍然是未解决的问题。

项目页面：https://ustc3dv.github.io/SparseLGS

1. Introduction

三维语言场建模是计算机视觉领域的一项重要研究问题，在自主驾驶、机器人操作[31, 45]和VR/AR等领域有着广泛的应用前景。为了获取和提升三维语言场的质量，通常需要进行高精度的三维重建。随着NeRF [26]的出现，专注于三维语义场的研究工作层出不穷[23, 46]。最初，这些语义场大多是对显式三维重建方法3D高斯点积[15]的尝试，该方法能够快速训练并实现实时渲染，有效解决了之前基于NeRF的方法所面临的速度问题。此外，通过使用SAM [18]进行 Mask 分割，并结合诸如CLIP [3, 12]或DINOv2 [28]等语义模型，可以解决由不清晰的语义边界引起的质量问题。这些方法[30, 34]通过自编码和MLP量化等技术对原始CLIP特征进行下采样以优化高斯的语义，但下采样过程后需要重构原始CLIP特征。这一恢复过程可能会造成信息损失，使得最终得到的特征与原始特征不一致。此外，与3D高斯点积类似，这些方法通常也需要非常密集的输入（通常是超过20个视图），以及非常高精度的相机姿态。由于高输入要求和长时间的训练过程，使得这些方法很难在实际场景中应用。从实际应用的角度来看，作者更倾向于使用非常稀疏的输入（例如3-4张图像），以快速获得高质量的三维语言场。这不仅可以显著减少数据采集过程的复杂性并缩短训练时间，使其更适合实际应用。

在本文中，作者提出了稀疏视图嵌入高斯斑点生成方法（SparseLGS），以解决从稀疏视图输入获取3D语言场的挑战。为了克服传统现成方法如COLMAP [32, 33]在点云重建时处理极稀疏视图时经常失败的局限性，作者采用了一种基于学习的密集立体匹配方法MASt3R [19]来估计相机姿态并生成初始点云。随后，作者利用SAM和CLIP获取物体 Level 的语义结果。在密集视图输入的情况下，由于大量的视角允许正确信息胜过少量的错误信息，多视角语义的一致性可以在一定程度上得到纠正。然而，在稀疏输入条件下（例如，只有3-4个视图），错误的结果可能会扭曲正确的结果。图1第二列展示了LangSplat [30]的结果，这作为多视角不一致如何导致使用稀疏视图输入进行渲染质量下降的一个典型例子。为了解决这个问题，作者采用了包含像素匹配和区域融合等技术的三步多视角语义对齐方法，以实现精确对齐。为了减轻重建原始特征过程中信息的损失，作者在低维结果与原始CLIP特征之间建立了双射关系。这使得作者可以通过基于瓦片的渲染获得渲染后的语义结果，并利用双射关系恢复原始CLIP特征，从而实现开放式语言 Query 。

由于语义 Mask 提供了区域化信息，同一 Mask 区域内部的像素信息是相同的，仅在边界处有所不同。仅仅使用语义信息作为 ground truth 无法提供足够的几何约束。因此，作者首先利用 RGB 图像训练高斯参数以初始化高斯分布。随后，作者引入语义损失来引导语义场的训练，并微调高斯参数。

总结而言，本文的主要贡献包括：作者提出了一种名为SparseLGS的方法，据作者所知，这是首次尝试从稀疏无姿态视角输入中重建3D语言场的工作。

作者提出“三步语义多视图匹配”方法以解决输入视图间语义和 Mask 的一致性问题。
此外，作者建立了原始CLIP特征与降维特征之间的双射关系，以防止在重构原始特征过程中出现性能退化。
在使用RGB图像监督优化高斯参数后，作者在语义场学习中保留这种监督，以更好地约束场景几何结构。这一策略有效地确保了在稀疏输入下学习到的语义场的三维一致性。

2. Related Works

2.1. 3D Gaussian Splatting for 3D representation

与NeRF [26]等隐式重构方法不同，作为显式模型的3D高斯斑点图[15]因其能够在保持高质量视觉效果的同时实现实时渲染而备受推崇。许多方法通过结合3D高斯斑点图来在速度和质量上取得改进。一些泛化性方法[1, 2, 25]通过提取图像特征并整合多视图公共信息来增强模型的泛化能力，将其集成到构建的神经网络架构中。3D曲面重构[10, 11]和生成[36, 48]也采用了高斯斑点图，并在视觉效果和其他相关方面取得了显著改进。一些研究工作[8, 27, 43]将高斯斑点图结合起来，使其对数字行人和化身的重建更加高效，且具有更高的质量和更好的可编辑性。不同于上述工作的应用，作者旨在利用嵌入语言的高斯分布更好地构造3D语言场以支持开放词汇 Query 。

2.2.Sparse View 3D Reconstruction

3D重建任务通常需要密集的视角和精确的相机姿态进行监督。由于难以满足这些需求，一系列工作绕过了密集输入视角的要求。BARF [22] 和 NeRF [41] 联合优化辐射场和相机参数，并使用初始噪声。GARF [4] 提出了一个匹配方法并使用不同的激活函数来简化姿态估计。Simple-RF [35] 选择降低类似于NeRF的模型的拟合能力和表示能力，而HG3-NeRF [9] 则利用CLIP特征辅助这一从粗到细的重建过程。SPARF [37] 使用虚拟视角和像素匹配，设计了两种相关损失来帮助优化相机姿态。这些工作都与NeRF有关。随着高斯散斑技术的日益流行，基于它的稀疏重建方法也越来越多。CoR-GS [44] 同时训练两个高斯场，并基于这两个场之间的不一致性进行优化。DNGaussian [20] 和 FSGS [49] 强调深度信息，并侧重于使用全局和局部信息优化高斯分布。这些方法专注于学习RGB信息，而不解决三维语义场的重建问题。因此，类似InstantSplat [7]的做法，作者利用基于学习的方法MASt3R来提供出色的相机姿态和点云，以应对三维语义场稀疏重建的挑战。

2.3.3D Language Fields

在计算机视觉领域取得显著进展后，研究行人开始涉足更具挑战性的三维语义领域。SemanticNeRF [46] 能够轻松地将语义 Mask 与NeRF结合，从而获得三维语义分割场。GSNeRF、Semantic-Ray、RTGS2 [5, 14, 23] 发展了不同的网络架构和 Pipeline ，训练出了可泛化的场景分割模型。上述方法能够实现三维语义分割，但无法执行文本到图像内容 Query 。随后，许多基于CLIP特征的方法被开发出来以获取开放式的三维语言领域。Feature 3DGS [47] 使用SAM特征获取三维语义分割场，并利用CLIP实现特定目标的文本 Query 。CLIP-GS [21] 注重视频的实时三维语义理解，并采用了码本进行维度缩减。LEGaussians [34] 结合了DINOv2和CLIP，并使用具有Softmax的MLP来获取语义特征。LangSplat [30] 使用自编码器减少CLIP特征的维度并将编码特征重构，FastLGS [13] 利用特征网格区分并绑定高维到低维特征的映射。OpenGaussian [42] 对三维空间语义进行约束，并采用粗到细的码本进行物体语义差异区分。不同于上述方法，作者专注于如何从无姿态稀疏输入中高效地获取高质量的三维语言领域，以支持开放词汇 Query 。

3. Method

整个Pipeline如图2所示。在第3.1节中，作者简要介绍了Gaussian Splatting，并描述了如何获取目标级语义特征以用于语义域训练。在第3.2节中，作者介绍了多视图立体模型，以精确估计相机姿态并生成初始点云。在第3.3节中，作者解决了稀疏输入下多视图不一致性的问题。最后，在第3.4节中，作者详细阐述了作者的两步训练理念及其具体实践。

3.1. Preliminary

高斯绘制[15]是一种显式的3D场景表示方法，其中整个场景被明确建模为一系列各向异性3D高斯分布。利用这些3D高斯基础元以及相机的内在和外在参数，可以计算每个像素的颜色。

特别是，每个3D高斯分布可以由均值向量和协方差矩阵参数化。

为了确保是半正定的，作者使用一个缩放矩阵和一个旋转矩阵来表示它，使得。最后，通过基于瓦片的光栅化技术高效地将 3D 高斯分布投影到二维图像平面。alpha 混合过程如下：

其中表示每个高斯的色彩，表示射线相交的所有高斯集合，，其中由第个高斯的透明度和第个高斯的 2D 投影组成。

为了实现语义高斯点云渲染，每个高斯分布还被赋予了一个语义特征。因此，类似于之前的渲染过程，作者同样可以通过alpha混合获得渲染得到的语义特征，如下所示：

为了使用目标 Level 的语义特征优化这些，作者使用SAM [18]模型获取图像的目标分割，并使用CLIP [3, 12]模型获得每个目标区域的语义信息，而不是依赖于DINOv2 [28]中的不清晰的区域 Level 的语义特征。

3.2. Camera Pose and Point Cloud Estimation

首先，作者需要从稀疏输入中估计相机姿态和初始点云，以便训练这些高斯分布。当前的方法通常依赖于结构从运动（SfM）[32] 和多视图立体视觉（MVS）[33] 来预先计算相机姿态和稀疏点云，基于密集输入。虽然这种方法对于稠密视角下的三维重建非常有效，但在输入视角稀疏且存在显著视角变化（例如，只有三个视图且相机角度差超过90度）的情况下，往往难以准确估计相机姿态。因此，直接应用类似于COLMAP的方法可能无法获得准确的初始化结果。

近年来，DUSt3R [39, 40] 和 MASt3R [19] 等新型模型将SfM和MVS过程整合到一个Pipeline中，从而能够从无姿态稀疏视图输入中端到端地重建相机姿态和密集点云。通过使用这些方法替代COLMAP过程，可以提供一个稳健的初始化，显著改善由于输入约束有限而导致的稀疏重建质量较差的问题。这为提高三维语义场的质量奠定了坚实的基础。

3.3. Sparse View Semantic Alignment

作者首先介绍作者的输入及其相应的符号表示。给定一组输入图像，对于每幅图像，作者可以得到三个不同粒度（整体、局部部件、部件）的完整分割 Mask 和，并计算对应的CLIP特征和。在通过之前的预处理步骤获得相机姿态、初始点云和语义图之后，作者现在可以开始训练三维语义场。然而，在稀疏视图输入的设置下，仍面临着一个显著的挑战。具体来说，由于视角方向、杂乱背景以及遮挡等因素的影响，同一物体从不同视角观察时，确保三维语义的一致性变得困难。当可用密集输入视图时，通过足够的训练样本数量可以解决细微不一致性。但随着视图数量的减少，不同视图间的语义不一致性变得更加突出和严重。这些不一致性会降低训练完成的三维语义场的效果，并导致文本 Query 准确性下降。

为了减轻稀疏视角语义不一致的影响，作者提出了一种由三部分组成的语义对齐方法：基于RoMa的像素匹配、不一致 Mask 融合以及再投影匹配微调。

步骤1：基于罗马的像素匹配。首先，作者使用RoMa [6]来完成不同语义 Mask 之间的匹配。对于图像和，假设中的 Mask 区域。中的每个像素在中可以找到一个对应的匹配像素。这些将分别归属于中的不同语义 Mask 。与匹配的具有最多匹配点的SAM Mask 就是在中匹配的语义 Mask 。然后，利用和的匹配区域比值，以及相应特征和（根据公式4定义的余弦距离），作者可以评估 Mask 之间的对齐一致性。

真正匹配的SAM Mask 对可以在时被选择，其中控制着筛选过程中的置信水平。这里，定义在方程5中，其中表示的权重。

Step2: 不一致的 Mask 融合。匹配后，解决了语义不一致性问题。然而，在不同视角下的SAM分割中，仍然存在不一致性。例如，同一 Mask 中的两个区域可能属于中不同的 Mask 。对于粗分割，作者希望每个 Mask 代表一个完整的目标。基于之前匹配的 Mask 对，如果中的多个 Mask 与中的同一个 Mask 对应，并且这些对满足筛选标准，作者将在中合并这些 Mask 区域，并赋予它们的语义。而对于细分割，为了避免 Mask 融合，确保同一个目标可以被分割成更小、更详细的段落。

第三步：再投影匹配微调。经过前两步，稀疏视图间的语义不一致性问题得到了很大程度的缓解。然而，RoMa 可能在匹配空间上接近但观测角度差异较大的点时表现不佳。为了解决这一问题，作者使用像素对应的三维位置来辅助细化匹配。

具体而言，对于SAM Mask 中的每个像素，可以通过反投影的方式将其还原到三维空间，然后再重新投影到另一个视图上，例如中。类似步骤1的做法，可以在中识别出对应的 Mask 。对于，作者同样可以通过反投影找到中对应的 Mask 。双边匹配结果可以用分别计算，类似于步骤1的方式。如果且，则保留正确的SAM Mask 对。

3.4. Training Sparse View 3D Language Fields

在以往针对密集输入的3D语言领域表示方法中，训练语义特征时会放弃RGB监督。然而，在稀疏输入设置下，如果仅仅依赖语义损失来训练高斯模型，它们往往会变得过分拉长或过大，无法准确捕捉场景的正确几何分布。这完全是因为语义图提供的信息非常有限且区域化，几乎每个区域内部没有额外的信息。这导致高斯形状能够无差别地增长，并且难以受到良好控制。相比之下，RGB图像包含更丰富的信息，可以提供更强的几何约束。因此，作者首先在无语义约束的情况下训练高斯模型，这为构建3D语义场提供了稳健的初始化。此外，在高斯模型的初始训练过程中，作者还结合了相机姿态优化，以修正估计的相机姿态中的轻微误差。训练过程如下：

双射关系。在语义训练过程中，如果直接将数十万的高斯分布与CLIP特征结合，会导致不可接受的存储开销和低效的渲染及训练。为了解决这个问题，作者需要减少原始语义特征的维度。当前的方法通常依赖于训练一个自编码器进行降维，或者使用量化和MLP。

然而，这两种方法都存在一个缺点，即重建的语义特征往往与原始CLIP特征对不上。

作者的解决方案是通过主成分分析（PCA）、多层感知机（MLP）或一维卷积等技术对原始特征进行降维处理，然后直接将相应的低维特征与高维特征建立一对一对应关系，从而最小化由重构原始特征引起的误差。作者将图像中的低维语义特征表示为和。接下来，在语义特征的训练过程中，为了确保高斯性质的变化尽可能小，除了语义属性外，还提供一些几何约束，因此用于训练语义高斯分布的损失函数结合了图像损失和语义损失。记为分割 Level 对应的渲染语义特征，总损失函数可以表示为：

4. Experiments

4.1. Implementation Details

作者使用PyTorch[29]实现框架，并结合了从3D高斯斑点修改而来的CUDA Kernel ，以实现语义特征的渲染。在高斯参数的初始化训练过程中，作者整合了剪枝和密度调整过程。这一过程在语义训练阶段不会执行。作者在训练阶段设置和，而在稀疏视图语义对齐阶段，设置、和。这些参数可以根据不同的场景进行微调，以提高视觉质量。由于输入的稀疏性，作者大约需要30秒来估算相机姿态和点云，约4分钟来获得语义分割，以及大约30秒完成多视图语义对齐。作者的模型在一个RTX3090 GPU上完成一次语义训练大约需要3分钟。作者使用Adam[17]优化器进行训练，并将学习率设置为用于语义特征的学习。由于良好的初始条件，语义高斯场的三个粒度 Level 各自只需要训练1000个迭代周期。

4.2.Datasets and Baseline

作者在两个广泛使用的数据集上进行了实验：3DOVS [24] 和 LERF [16]。LERF 数据集包含 13 个场景，其中既有野外自然场景也有摆拍的长尾场景。该数据集的特点是包含了复杂多变且种类丰富的场景和物体，展示了方法处理真实世界数据的能力。受到 LERF 和 LangSplat [30] 的启发，作者使用 mloU 指标来评估开放词汇 Query 下预测 Mask 的质量，并使用 mACC 来评估物体定位任务的准确性。3DOVS 数据集由不同场景组成，包含一组在不同姿态和背景中的长尾物体，使其非常适合用于评估开放词汇任务下物体 Mask 的质量。因此，作者使用 mloU 作为 3DOVS 数据集的评估指标。

作者将作者的稀疏LGS与最近的基于语言嵌入的Gaussian splatting方法，如LangSplat [30]和LEGAussian [34]进行了比较。对于LERF数据集，在原始工作流中使用COLMAP无法获得相机姿态，因为视角非常稀疏且场景复杂。因此，在对LERF数据集进行实验时，作者使用所有图像来获取相机姿态和初始点云。此外，由于尚未有专门针对3D语言场稀疏重建的工作，作者将InstantSplat [7]和LangSplat结合起来作为对照方法。

4.3.EvaluationResults

4.3.1 LERFDataset

表1展示了作者方法在目标定位和语义分割上的定量结果与其他方法的对比。作者在LERF数据集的所有实验中都使用了四种视角。“DC”表示使用密集输入（例如，所有图像）来通过COLMAP获得相机姿态和点云。作者这样做的原因是，这些方法使用COLMAP作为初始化密集输入的方式，但COLMAP无法为视角变化显著且稀疏输入（3-4个视角）提供相机姿态。因此，作者在这些方法中放宽了初始化条件。如表1所示，即使给这些方法提供了更多的信息，作者的方法仍然在目标定位和语义分割任务中取得了更好的结果。此外，由于作者使用多视图立体视觉来获得良好的初始化，作者只需要训练1000个迭代即可，这使得作者在训练时间（Tr.T.）和总时间（几乎快五倍）方面比其他方法更快。此处，“总时间”指的是数据预处理时间和训练时间之和，用T.T.表示。

图3展示了每种方法在三维物体定位任务上的定性比较。可以观察到，在稀疏输入下，作者能够更准确地定位物体的位置，且相关性 Heatmap 也表明作者预测的区域高度集中。图4展示了在具有开放词汇 Query 的三维语义分割任务上的比较。显然，作者获得的语义 Mask 区域与Ground Truth（GT）非常吻合，并且基本上没有 Query 到任何无关的语义部分。

4.3.2 3D-OVSDataset

作者还在3DOVS数据集上将SparseLGS与其他方法进行了比较。与原始的3D-OVS [24] 方法不同，后者需要事先获得场景中所有物体的完整列表，作者仅使用文本描述来 Query 并获取所有方法的目标 Mask 。

表2展示了本方法与其他最新的3D语言领域重建方法相比的数值结果。作者在3D-OVS数据集上仅使用了三个视图作为输入。可以观察到，本方法取得了优异的结果，并且在不同数据集上表现出强大的数值稳定性。其他方法如Langsplat依赖于自编码器来重构原始的CLIP特征。因此，它们的表现直接受到自编码器质量的影响，导致结果波动较大。对于“room”数据集而言，这种对自编码器的依赖甚至导致了完全的预测失败。尽管进行了多次重复训练实验，作者仍未获得满意的结果。这进一步强调了在本方法中建立从高维度到低维度空间的直接映射的重要性。