告别单一视角：DA4LG在多视图设置下的惊艳表现！

AIGC 先锋科技

发布于 2024-07-10 14:18:49

920

发布于 2024-07-10 14:18:49

现有关于三维目标层面语言接地的工作大多集中在通过使用现成的预训练模型来捕捉特征，比如视角选择或几何先验，以提高性能。然而，它们未能考虑在跨领域场中探索语言-视觉对齐的跨模态表示。为了解决这个问题，作者提出了一种名为三维目标领域适应语言接地（DA4LG）的新方法。具体来说，所提出的DA4LG包括一个具有多任务学习的视觉 Adapter 模块，通过全面的多模态特征表示实现视觉-语言对齐。实验结果表明，DA4LG在视觉和非视觉语言描述方面表现出色，且与观察的完整性无关。在语言接地基准测试SNARE中，DA4LG在单视图设置和多视图设置下分别取得了83.8%和86.8%的最先进性能。模拟实验显示了与现有方法相比，DA4LG的良好实用性和泛化性能。作者的项目可以在https://sites.google.com/view/da4lg找到。

1 Introduction

视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁，使得代理的智能可以从感知决策发展到认知决策[16, 5]。例如，代理可以根据来自大型语言模型的计划器提供的一系列原始指令，包括对目标目标的详细描述，来制作一杯咖啡。在这一过程中，视觉语言定位在将每步指令与物理观察到的目标连接起来方面发挥着关键作用[3, 36]。因此，与3D目标的视觉语言定位是使代理能够与真实世界互动的不可或缺手段。有限的、高质量的视觉-语言配对数据阻碍了视觉语言定位技术的发展，尤其是3D视觉语言定位。为了解决这个问题，现有工作尝试[9, 28, 38, 42]使用多视角感知或外部先验，这需要额外的数据成本以及由于在固定设置中预训练的特征编码器引起的现有领域差距。在本文中，作者从领域适应的角度对语言定位任务进行了探索，受到了大型语言模型参数高效调整的领域适应的启发。

如图1所示，现有的语言定位研究主要关注两条线，包括多视角感知增强方法（图1（a））和外部先验注入方法（图1（b））。对于前者，Thomason等[42]和Mitra等[28]提出了一种基于视角的方法来提高预测准确性。Thomason等[42]设计了一个辅助任务——视角角度估计，以增强对3D目标的理解。Mitra等[28]设计了一个多视角 Transformer 来在共享空间中融合视觉特征和文本特征。对于后者，Corona等[9]提出了一种基于3D目标视角的预训练3D体积生成模型LegoFormer的 Voxel 信息方法[45]。Song等[38]构建了显式的场景驱动多模态知识图ManipMob-MMKG，以设计知识增强方法。总之，当前方法仍然在很大程度上依赖于视角或外部先验。

图1：现有工作与作者的模型比较。现有工作集中在（a）多视角感知和（b）外部先验。（c）作者从领域适应的角度处理语言定位。

在表征学习方面，现有的研究通常采用在源领域预训练的视觉-语言特征编码器，并使用冻结参数模式，这对于由于领域差距而导致的3D语言接地任务在多模态对齐中不能很好地工作。基于这些发现，作者提出了一种新颖的多模态领域适应方法，名为针对语言接地的领域适应（DA4LG），以改善3D目标级理解和多模态对齐，该方法不需要额外的视觉或文本数据，如图1(c)所示。鉴于源领域（例如，WebImageText领域，其中CLIP进行预训练[31]）与目标领域（例如，语言接地领域）之间的语言相似性，以及预训练语言模型的泛化能力[12, 20, 44]，DA4LG专注于视觉特征内的领域适应。具体来说，作者设计了伪孪生视觉编码网络[17]来实现领域适应，其中一个是用于学习特定领域3D视觉表征的视觉编码子网络，名为领域特定编码器；另一个则冻结以编码与源领域相关的视觉表征。在训练模型时，作者设计了两项辅助任务与主要语言接地任务（LGR）一起学习跨模态表征。第一个任务是通过视觉和语言对比学习区分不同目标，而第二个任务则涉及从多模态融合特征重新生成输入文本。作者通过Thomason等人提出的语言接地数据集SNARE[42]评估DA4LG，该数据集将自然语言描述与3D ShapeNet[6]目标区分开来。DA4LG在单视图和多视图设置下均取得了最先进（SOTA）的性能。此外，通过仿真实验，DA4LG与现有模型相比展示了泛化能力和鲁棒性。与Thomason等人[42]和Mitral等人[28]的多视图感知增强方法相比，作者的DA4LG不受视图数量或视图选择的影响。与Coronal等人[9]和Song等人[38]的外部先验注入方法相比，作者提出的方法只需将视觉编码器作为一个克隆模块进行有限的参数训练，无需外部先验注入。这种方法在减小模型参数大小的同时提高其可靠性方面具有明显优势。

作者的主要贡献可以总结如下：

作者提出了一种新颖的域适应方法（DA4LG），利用多任务学习减少视觉领域间隙，在视觉-语言对齐表示中实现对3D目标的语意定位。
DA4LG展示了当前最优（SOTA）性能，在单一视角设置下达到83.8%的准确率，在多视角设置下达到86.8%的准确率，这一成果是在语意定位基准测试SNARE [42]上取得的。
作者进行了包括定位环境和从Lang-SHAPE [37]扩展的测试集在内的模拟3D目标定位实验，称为模拟-SNARE。

结果表明，与现有模型相比，DA4LG在应用鲁棒性和泛化能力方面具有明显优势。

2 Related Work

语言接地。基于3D的语言接地可以分为两类：一类是用于导航的语言接地，另一类是用于交互的语言接地。如Chen等人[8]所述，用于导航的语言接地着重于训练一个智能体，使其能够遵循一组自然语言指令，在环境中导航至目标目标。这一任务与场景理解相关，包括目标定位，视觉语言导航。

最近，有关与3D目标交互的语言接地研究也开始出现。ShapeGlot [2]探讨了如何基于3D表示，用语言表达捕捉常见目标形状的详细差异。Akula等人[4]提出了使用共享权重的神经模块网络，并利用类似文本上下文之间的关联，例如“左边的暗色立方体”和“左边的黑色立方体”。SNARE [42]提出了挑战，要求识别与干扰物高度相似的被指代目标。该任务包含了从ShapeNet [6]中3D空间中目标的多种视角，从而增加了语言引用问题的复杂性。

图2：DA4LG的框架。DA4LG由编码层、嵌入重加权层和嵌入融合层组成。编码层包含三个编码器：语言编码器（L.编码器）、视觉编码器和领域特定编码器。雪花和火焰分别表示冻结和解冻。

当前的研究包括两种主要方法：多视角感知增强方法和外部先验注入方法。前者采用带有3D目标的多视角框架来提高预测准确性，例如MAGiC [28]，LAGOR [42]等。后者方法整合外部先验以增强任务性能，包括VLG [9]，LOCKET [38]等。

领域适应。最近的研究特别强调为自然语言处理（NLP）领域适应设计的 Adapter 。Hu等人[22]提出了低秩适应（LoRA），这是一种新颖的方法，包括冻结预训练模型权重，并在Transformer架构的每一层中引入可训练的秩分解矩阵作为 Adapter 。基于此的有效适应策略被引入以弥合NLP任务中的领域差距。受现有研究的启发，作者将领域 Adapter 整合到多模态任务中，并探索其在适应3D目标语言接地方面的效用，将其应用扩展到传统的NLP任务之外。

3 Proposed Method

领域适应。 在源领域（例如，CLIP预训练模型[31]的WebImageText领域）中针对源任务（例如，CLIP预训练模型[31]）给定一个预训练的网络模型，以及在目标领域中针对目标任务（即语言定位任务）的一组带有相关标签的训练样本。作者的目标是创建一个适应策略，通过利用在和中的，来提升在中针对的目标预测函数的性能[10]。

任务定义。 在涉及3D目标的语音定位任务中，给定一个语言描述作为输入，作者的目标是确定候选目标集 [42] 中最佳的匹配目标：

其中表示给定语言描述的目标目标的条件概率。作者期望输出尽可能与真实值对齐。

Domain Adaptation for Language Grounding

网络结构概述。 如图2（a）所示，DA4LG包含三个编码器：视觉编码器（）、语言编码器（）和领域特定编码器（）。此外，还包括一个嵌入重加权层（）和一个嵌入融合层（）。因此，方程1可以重写为：

其中目标从不同视角投影到图像集中。和基于预训练的冻结状态的编码器。作者计算以确定输出标签。

领域特定编码器。 为了减少和之间的领域差距，作者设计了一个名为领域特定编码器的Domain Vision Transformer来编码，如图2（c）所示。领域特定编码器在（例如WebImageText领域[31]）上预训练。与vanilla Vision Transformer [15]相比，作者在多头注意力层的、、中引入低秩矩阵作为领域 Adapter 。与NLP中用于参数高效调整的 Adapter 不同，DA4LG中的领域 Adapter 旨在捕捉领域特定表征。在领域特定编码器中，除外的所有其他参数在训练时都是冻结的。将输入到中构建领域特征，

嵌入重加权层。 如图2（b）所示，作者使用调整并减少与不相关的特征的影响。具体来说，给定与第个视角对应的和描述，作者计算余弦相似性并得到领域特征的加权组合。

嵌入融合层。 为了增强多模态对齐和构建联合特征，作者在嵌入融合层中采用聚合操作来构建视觉特征和领域特征，其中是最大池化。作者将特征进行拼接，然后输入到多层感知机中计算。

Multi-task Learning

如图2（a）所示，DA4LG框架在多任务学习中融合了三种不同的任务：语言接地（LGR）任务，视觉-语言对比（VLC）任务，以及视觉接地标题（VGC）任务。LGR任务被设计为主要任务，遵循现有研究[42]。VLC和VGC任务作为辅助任务，在BLIP-2[24]启发下优化训练目标。

语言接地任务（LGR任务）。 主要任务是LGR任务，涉及预测目标。作者将输入以预测 GT 标签，并应用二元交叉熵损失进行优化：

视觉-语言对比任务（VLC任务）。 作者提出了VLC任务，以学习能够区分来自两个不同分布样本的嵌入。在每一步，作者在训练过程中抽取一些正负样本对。具体来说，来自匹配对的样本称为正样本，而来自不匹配对的样本称为负样本。作者使用余弦相似性，记作，来衡量语言特征和目标特征（其中）之间的对齐程度。作者优化这个函数以正确选择一个正描述样本和个负目标样本，并计算目标描述的对比损失：

其中，是3D目标正样本和负样本的特征。同样，作者可以得到描述-目标对的对比损失：

VLC损失表示为。

视觉接地标题任务（VGC任务）。 给定和，作者设计VGC任务基于冻结的GPT-2[32]生成文本描述。这里，表示一系列记为的标记。作者的训练目标是根据自回归中的输出标记预测标题标记。VGC任务的训练损失表述为：

在多任务学习阶段，作者的目标损失函数是

4 Experiment Design

为了评估作者提出的方法，作者探讨了四个关键研究问题（RQs）。RQ1涉及DA4LG相较于 Baseline 方法的优越性。RQ2和RQ3关注如何有效地采用DA4LG。RQ4涉及DA4LG在下游模拟环境中的泛化能力。

RQ1：与针对语言接地任务的其他方法相比，作者的DA4LG有哪些优势？

RQ2：在领域特定编码器中，哪种训练策略能够以高效的参数获得更好的性能？

RQ3：DA4LG中的不同学习任务如何影响语言接地的性能？

RQ4：与在其他方法中相比，作者的DA4LG在下游任务的模拟环境部署中是否能够更有效地执行？

Baseline Models

作者对DA4LG与各种公开 Baseline 进行了比较分析，如表1所总结。当前研究采用了两种主要方法：以MAGiC [28]和LAGOR [42]为代表的多元感知增强方法，以及注入外部先验的方法，该方法以ViLBERT [26]、MATCH [42]、VLG [9]、CLIP [31]、LOCKET [38]和BLIP2 [24]为代表。以下是这些 Baseline 的列表：

LAGOR 采用多任务学习方法，为单个视图图像预测规范视角。

MAGiC 对候选参照物进行联合推理，从多个可能的角度考虑每个目标。

MATCH 和 ViLBERT 分别使用CLIP-ViT和ViLBERT编码每个目标的视图。训练一个MLP根据编码的视图和语言描述嵌入分配分数。

CLIP 使用CLIP嵌入中视觉和语言特征之间的余弦距离来选择距离最低的目标。

BLIP-2 是一种基于多模态LLM的零样本设置方法。

VLG 利用从预测的体积 Voxel 图中的隐式3D先验信息，通过LegoFormer [45]提高语言接地性能。

LOCKET 是一种知识增强方法，它使用图卷积网络编码多模态知识图。

Implementation Details

4.2.1 Training and Inference Details.

作者使用了带有权重衰减的Adam优化器。批量大小为64，训练周期为60，学习率为。实验是用CUDA 11.2和PyTorch 1.7.1实现的，并在一个NVIDIA RTX4090上运行。在DA4LG中，作者分别采用了来自CLIP ViT-B/32 [31]的视觉和语言编码器作为视觉编码器和语言编码器。领域特定编码器是从CLIP ViT-B/32中的视觉编码器初始化的。

4.2.2 Benchmark Datasets.

作者将在SNARE数据集[42]上训练和评估作者提出的方法，该数据集根据现有研究[42]被划分为训练集、验证集和测试集。SNARE是一个基准，用于在给定语言描述的情况下，从多视角中选择具有微小差异的正确目标。集合中的每个数据都有视觉或盲目的标签。视觉标签意味着对目标有一个全面的理解，提供相关的视觉线索以指导定位过程（例如，“_带白色座位的经典扶手椅_”）。盲目标签主要关注目标的形状和特定的区别属性，故意省略颜色和其他视觉特征（例如，“_椭圆形靠背和垂直腿_”）。训练集包含个类别，个目标和个参考。验证集包含个类别，个目标和个参考。测试集包含个类别，个目标和个参考。

4.2.3 Simulation Details.

作者通过从现有的3D数据集Lang-SHAPE [37]中采样目标，并使用在SNARE中使用的原始数据标注过程对其进行标注，构建了一个新的模拟基准，作者称之为Simulation-SNARE。具体来说，Lang-SHAPE中的目标和领域与SNARE中的相同，它们都源自ShapeNet [6]。作者遵循SNARE中使用的原始数据标注过程。Simulation-SNARE包括个目标和个参考，其中个被分类为视觉的，个为盲的，这与SNARE的配置一致。作者将Simulation-SNARE部署到模拟环境MuJoCo [43]中。作者用开源代码复制了现有方法CLIP、ViLBERT、MATCH、VLG和LAGOR，将这些方法与DA4LG一同部署在模拟世界中。

4.2.4 Metric.

这项任务的指标是预测的准确率（%），即在两个候选目标中正确识别出语言描述所指物体的准确率。作者分别计算所有集合、视觉子集和盲目子集的准确率。此外，作者还通过计算模型的参数大小来评估模型的参数效率。

5 Result Analysis

Benchmark Comparisons

5.1.1 Comparisons with Existing methods.

为了回答研究问题1，作者在多视角和单视角设置下进行了比较分析，作者提出的方法DA4LG在所有设置中都比 Baseline 模型表现更好。在多视角设置中，表1展示了与使用相同 Backbone 网络CLIP ViT-B/32的外部先验方法相比，DA4LG在验证性能上的最佳提升。具体来说，与CLIP、MATCH、LOCKET和VLG方法相比，DA4LG分别显示出（）、（）、（）和（）的增强。特别是，VLG模型需要亿个训练参数，而作者的方法只需要不到VLG模型一半的参数（7.95亿）。这证明了DA4LG在参数效率上的优势。与需要广泛数据的知识图谱的LOCKET模型相比，作者的方法消除了对这种结构的需要。当使用ViLBERT作为 Backbone 网络时，作者的模型在验证准确性上提高了(83.1%\to 86.8%)。此外，当采用多模态大型语言模型进行零样本方法时，作者的模型性能提升了超过30%。多视角感知方法包括LAGOR和MAGiC。与LAGOR相比，DA4LG在验证上提高了(82.6%\to 86.8%)。DA4LG在验证集上达到86.8%的验证分数和在测试集上达到81.9%，与现有的SOTA模型MAGiC在验证中打平，并在测试中超过它0.2%。

表2展示了单视角设置下各模型的性能。DA4LG在所有方法中取得了最佳结果，比现有的SOTA模型MAGiC在验证中超过了(82.0%\to 83.8%)。在单视角设置中的DA4LG比多视角设置中的几个模型表现得更好。具体来说，与多视角设置中的CLIP、MATCH、LAGOR和ViLBERT模型相比，DA4LG分别显示出(74.5%\to 83.8%)、(82.2%\to 83.8%)、(82.6%\to 83.8%)和(83.1%\to 83.8%)的改进。本研究表明，在单视角设置中，对齐的多模态特征可以增强模型在语言定位任务中的整体性能。作者认为，观察到的性能提升可以归因于目标领域内的多模态对齐。在下面的子节中，作者将提供消融研究和可视化以进一步证明这一结果。

4.2.1 Training Policy in Domain-specific Encoder.

为了回答RQ2，作者探讨了在特定领域编码器中不同的训练模式和源领域。对于训练模式，作者进行了以下四种情景的对比分析，在这些情景中，特定领域编码器使用相同的预训练参数进行初始化：

Freezing-Param：特定领域编码器的参数是固定的。

Full-Param：特定领域编码器中的所有参数都是可训练的。

Partial-Param：受Sun等人的启发[40]，在训练阶段只更新特定领域编码器的最后两层。

Domain-Adapter：特定领域编码器使用第3.1节提到的域 Adapter 进行训练，遵循低秩适配（LoRA）[22]。

如表3所示，与其他训练模式相比，Domain-Adapter在验证集上以有限的训练参数取得了最好的性能，准确率为86.8%。Full-Param和Partial-Param策略在验证集上分别达到了80.8%和83.8%的性能。然而，与Freezing-Param和Domain-Adapter方法相比，它们的训练参数增加了。

为了RQ2，作者选择了四个源领域来初始化特定领域编码器。表4显示，与从零开始训练相比，在源领域上预训练的特定领域编码器表现出更好的性能。此外，将参数更多的Vision Transformer作为特定领域编码器并不会显著提高DA4LG的性能。使用CLIP-B（在特定领域WebImage-Text上进行预训练）的特定领域编码器，其性能从81.6%提升到86.8%，与Scratch-B相比有显著改进。在ImageNet领域和BLIP领域进行预训练的ViT-B和BLIP-B的性能分别提高了3.0%和4.0%。CLIP-L和Scratch-L的性能分别为85.0%和80.6%。与CLIP-B和Scratch-B的指标（分别为86.8%和81.6%）相比，这些数字并没有显示出显著的改进。因此，对于特定领域的应用，初始化CLIP-B是首选。

4.2.2 消融研究。

对于RQ3，作者进行消融研究分析，以调查不同任务和编码器在DA4LG中的影响。对于不同的任务，表5展示了DA4LG内不同任务和编码器的有效性。具有所有任务和编码器的DA4LG取得了最佳性能分数86.6%。当DA4LG仅使用LGR任务时，在验证中产生81.9%的性能指标。将VLC和VGC纳入提高了DA4LG的性能，分别达到85.4%和85.0%。对于不同的编码器，没有视觉编码器的DA4LG在验证中达到81.5%，没有特定领域编码器的DA4LG达到82.9%。配备了视觉编码器和特定领域编码器的DA4LG，与仅使用单一编码器的性能相比，表现出86.8%的增强性能。

4.2.3 Case Study and Visualization

图3：示例可视化：左侧显示物体的原始图像。中间可视化的是注意力得分图，右侧则使用了领域 Adapter 在特定领域编码器中增强的注意力得分图。暖色（如红色）表示注意力得分较高，而冷色（如蓝色）则代表注意力得分较低。

如图3所示，作者随机选择案例进行可视化，以展示目标领域中的语言视觉对齐。左列表示目标物体的原始图像。中间和右侧的图像分别展示了没有领域 Adapter 和有领域 Adapter 时，特定领域编码器生成的注意力得分图。对于描述“一个装着咖啡的杯子”和“带有黄色头枕的椅子”的情况，没有领域 Adapter 的注意力图未能完全捕捉到“咖啡”和“头枕”等描述性元素。领域 Adapter 的整合使注意力向“咖啡”和“头枕”的方向得到了增强。

此外，在没有领域 Adapter 的情况下，注意力图将其关注范围扩展到预期区域之外。对于像“带有黑色腿的椅子”、“带有木腿和黑色靠背的椅子”、“矩形把手”和“带有圆形靠背的物体”这样的描述，注意力分散在物体主要结构的各个部分。然而，领域 Adapter 的融合细化了注意力图，使其关注到详细的部位。

Simulation Results

为了回答RQ4，作者对现有方法与DA4LG之间的性能进行了比较分析。所有模型都在SNARE数据集上进行训练，并在零样本设置下部署到Simulation-SNARE中。在实验中，作者在模拟环境中提供了多种目标观察视角，包括{鸟瞰、前视、左侧、右侧、侧视}图像，其中鸟瞰图像是单视角实验的输入。与SNARE相比，Simulation-SNARE具有以下特点：

视角多样性。与SNARE数据集中的固定视角不同，模拟环境中的目标展现出多样的视角。物理场景。模拟环境中包含背景和工作台等物理场景，这与现实世界的设置更为相似。纹理质量。在模拟环境中，几何细节丰富，但纹理渲染不足。

表6显示，与模拟环境中的其他现有模型相比，DA4LG架构表现出更优秀的泛化能力和鲁棒性。具体而言，在多视角和单视角设置下，DA4LG分别取得了63.9%和62.6%的最高分数，分别比次优模型VLG高出2.5%和2.1%。

如图4所示，作者随机选择了三个案例，在这些案例中，其他方法（CLIP、MATCH、LAGOR、VLG）在SNARE数据集上成功但在Simulation-SNARE数据集上失败。例如，像_“带小金属座的椅子”_和_“带把手的圆形遮篷”_这样的目标被描绘成倒下的状态，增加了任务的复杂性。目标_“圆形和细腿”_未能捕捉到Simulation-SNARE中桌子的透明顶部。DA4LG模型在SNARE和Simulation-SNARE中都表现出强大的性能，这表明它更适合模拟环境以及现实场景中的操作场景。

6 Conclusion

在本工作中，作者试图从领域适应的角度来解决语言接地任务，并引入了一种名为DA4LG的新方法。

作者提出了一个特定领域的编码器和多任务学习框架，以改进基于语言的3D目标理解，其中有效地编码了跨模态表示和对齐的领域信息。

在基准测试上的评估表明，DA4LG在单视图和多视图设置中分别达到了83.8%和86.8%的最新性能。实验结果表明，与现有工作相比，作者提出模型的泛化能力和鲁棒性。作者的模型减少了跨模态对齐表示的领域差距。

作者还揭示了现有方法在领域差距研究中的改进空间，并强调了在3D目标的语音接地中的领域适应问题。

参考

[1].Multi-Task Domain Adaptation for Language Grounding with 3D Objects.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-09，如有侵权请联系 cloudcommunity@tencent.com 删除

性能

本文分享自 AIGC 先锋科技微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度