前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >每日学术速递2.20

每日学术速递2.20

作者头像
AiCharm
发布2025-02-21 16:26:06
发布2025-02-21 16:26:06
890
举报
文章被收录于专栏:AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Power by Kimi&苏神 编辑丨AiCharm

Subjects: cs.CV

1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization

标题: Re-Align:通过检索增强的直接偏好优化来对齐视觉语言模型

作者:Shuo Xing, Yuping Wang, Peiran Li, Ruizheng Bai, Yueqi Wang, Chengxuan Qian, Huaxiu Yao, Zhengzhong Tu

文章链接:https://arxiv.org/abs/2502.13146

项目代码:https://github.com/taco-group/Re-Align

摘要:

大型视觉语言模型 (VLM) 的出现通过集成视觉模态拓宽了单模态大型语言模型 ()LLMs 的范围和能力,从而在各种真实场景中解锁了变革性的跨模态应用程序。尽管 VLM 的性能令人印象深刻,但很容易出现严重的幻觉,尤其是以跨模式不一致的形式。在从人类反馈中强化学习 (RLHF) 在对齐方面取得成功的基础上LLMs,最近的进展集中在对精心策划的数据集应用直接偏好优化 (DPO) 以缓解这些问题。然而,这种方法通常以蛮力方式引入偏好信号,而忽略了视觉信息在对齐过程中的关键作用。在本文中,我们介绍了 Re-Align,这是一种新颖的对齐框架,它利用图像检索来构建双偏好数据集,有效地结合了文本和视觉偏好信号。我们进一步介绍了 rDPO,这是标准直接偏好优化的扩展,在微调过程中包含一个额外的视觉偏好目标。我们的实验结果表明,Re-Align 不仅比以前的方法更有效地减轻幻觉,而且在一般视觉问答 (VQA) 任务中也产生了显着的性能提升。此外,我们表明 Re-Align 在各种 VLM 尺寸和架构中保持稳健性和可扩展性。这项工作代表了在调整多模态方面向前迈出的重要一步LLMs,为更可靠和有效的跨模态应用程序铺平了道路。

这篇论文试图解决什么问题?

这篇论文试图解决视觉语言模型(Vision Language Models, VLMs)中的幻觉(hallucinations)问题。尽管VLMs在整合视觉和语言模态方面展现出了强大的能力,并在多种跨模态应用中取得了令人印象深刻的性能,但它们仍然容易产生幻觉,即模型生成的输出包含关于输入图像中对象、属性和逻辑关系的不准确或虚构的细节。这种幻觉问题在实际应用中可能导致严重的误导和错误决策。

为了解决这一问题,论文提出了一个名为RE-ALIGN的新型对齐框架,旨在通过结合图像检索和直接偏好优化(Direct Preference Optimization, DPO)来减轻VLMs中的幻觉现象,同时提升模型在视觉问答(Visual Question Answering, VQA)任务中的整体性能,并确保模型在不同大小和架构下的鲁棒性和可扩展性。

论文如何解决这个问题?

图像检索与偏好数据生成

  • 图像检索:利用图像检索技术,从训练集中检索与输入图像语义相似的图像。具体来说,所有训练集中的图像都通过VLM的视觉编码器转换为向量表示,并存储在知识库中。对于每个输入图像,检索出与其最相似的前k个图像[^1^]。
  • 偏好数据生成:通过图像检索,生成包含幻觉的候选回答。具体步骤包括:
    • 策略性掩码:对VLM生成的首选回答进行策略性掩码,掩盖与图像中对象、属性或逻辑关系相关的词汇[^1^]。
    • 诱导幻觉:利用检索到的图像,提示VLM完成掩码后的回答,从而生成包含幻觉的候选回答[^1^]。
    • 筛选幻觉回答:通过计算候选回答与原始首选回答的文本相似度,选择与原始回答相似度低于阈值(如0.95)的候选回答作为被拒绝的回答[^1^]。

2. 扩展的直接偏好优化(rDPO)

  • rDPO目标:提出了一个扩展的直接偏好优化目标(rDPO),在标准DPO的基础上增加了视觉偏好优化目标[^1^]。具体来说,rDPO目标包括两个部分:
    • 标准DPO目标:优化文本偏好信号,使模型更倾向于生成首选回答。
    • 视觉偏好优化目标:通过比较输入图像和检索图像,进一步优化模型的视觉偏好信号[^1^]。
  • 优化过程:在微调过程中,使用rDPO目标函数来更新模型参数,使模型在文本和视觉两个模态上都更好地对齐人类偏好。

3. 实验验证

  • 幻觉基准测试:在POPE和HallusionBench等幻觉检测基准上评估RE-ALIGN的效果,结果表明RE-ALIGN显著降低了VLMs的幻觉率[^1^]。
  • 一般VQA任务:在ScienceQA、TextVQA、MM-Vet、VisWiz、LLaVABench、MME和MMBench等一般VQA任务上评估RE-ALIGN的性能,结果表明RE-ALIGN在这些任务上也取得了优异的性能。
  • 模型规模和架构的泛化性:在不同大小和架构的VLMs上验证RE-ALIGN的泛化性,包括LLaVA-v1.5系列、LLaVA-v1.6系列和JanusPro系列。实验结果表明,RE-ALIGN在这些模型上都能显著提升性能。

4. 关键结论

  • 幻觉减轻:RE-ALIGN通过图像检索和rDPO目标,有效地减少了VLMs生成的幻觉,提高了模型的可靠性和准确性。
  • 性能提升:RE-ALIGN不仅减轻了幻觉,还在多种VQA任务上取得了优异的性能,证明了其在提升模型泛化能力方面的有效性。
  • 泛化性和可扩展性:RE-ALIGN在不同大小和架构的VLMs上都表现出色,展示了其良好的泛化性和可扩展性。

论文做了哪些实验?

论文中进行了以下几类实验来验证RE-ALIGN框架的有效性:

1. VLMs对齐实验

  • 数据集
    • 幻觉检测:使用POPE和HallusionBench。
    • 一般VQA任务:包括ScienceQA、TextVQA、MM-Vet、VisWiz、LLaVABench、MME和MMBench。
  • 基线方法:与多种现有的VLM对齐框架进行比较,包括POVID、CSR、SIMA和STIC。
  • 实验设置
    • 使用LLaVA-v1.5-7B和LLaVA-v1.6-Mistral-7B作为骨干模型。
    • 从LLaVA-Instruct-150K数据集中采样11k图像构建偏好数据。
    • 使用GPT-4o mini生成QA对,并使用clip-vit-large-patch14进行图像编码。
    • 使用all-mpnet-base-v2计算文本相似度。
    • 微调1个epoch,所有评估均在温度设置为0的情况下进行。
  • 结果
    • 在幻觉检测基准测试中,RE-ALIGN在POPE和HallusionBench上均优于所有基线方法。
    • 在一般VQA任务中,RE-ALIGN在多个任务上取得了与基线相当或更好的性能,并在总体上取得了最佳结果。

2. 模型规模和架构的泛化性实验

  • 数据集:与VLMs对齐实验相同。
  • 模型
    • 图像到文本模型:LLaVA-v1.5-7B、LLaVA-v1.5-13B、LLaVA-v1.6-Vicuna-7B和LLaVA-v1.6-Vicuna-13B。
    • 统一模型:JanusPro-1B和Janus-Pro-7B。
  • 实验设置:与VLMs对齐实验相同,但使用了不同大小和架构的VLMs。
  • 结果
    • 在不同大小的LLaVA-v1.5系列和LLaVA-v1.6-Vicuna系列模型上,RE-ALIGN均优于基线方法。
    • 在统一模型JanusPro上,RE-ALIGN也显著提升了性能,尤其是在较小的1B模型上。

3. rDPO目标的影响实验

  • 数据集:排除了需要GPT-4评估的基准测试,专注于ScienceQA、TextVQA、MM-Vet、VisWiz、LLaVABench、MME和MMBench。
  • 实验设置:使用与VLMs对齐实验相同的设置,但分别使用标准DPO和rDPO作为微调目标。
  • 结果
    • 在所有评估任务中,使用rDPO作为微调目标的RE-ALIGN均优于使用标准DPO的版本。
    • 即使仅使用标准DPO,RE-ALIGN也优于基线方法,并在某些任务上优于原始模型。

4. 偏好数据规模的影响实验

  • 数据集:使用ScienceQA作为案例研究。
  • 实验设置:将偏好数据集从11k扩展到16k图像样本。
  • 结果
    • 使用扩展后的偏好数据集,RE-ALIGN在ScienceQA上的性能显著提升,从0.45提高到1.34。

5. 定性分析

  • 响应示例:展示了LLaVA-v1.5-7B和RE-ALIGN在LLaVABench上的生成响应示例。
    • 原始模型的响应存在严重的对象幻觉问题,而RE-ALIGN能够提供更清晰、更准确的图像描述。

这些实验全面验证了RE-ALIGN框架在减轻VLMs幻觉、提升VQA任务性能以及在不同模型规模和架构上的泛化性和可扩展性方面的有效性。

论文的主要内容:

论文介绍了一个名为**RE-ALIGN**的新型框架,旨在通过结合图像检索和直接偏好优化(DPO)来减轻视觉语言模型(VLMs)中的幻觉问题,并提升其在视觉问答(VQA)任务中的性能。以下是论文的主要内容概述:

背景知识

  • VLMs通过整合视觉模态扩展了单模态大型语言模型(LLMs)的能力,但在生成输出时容易出现幻觉,即包含关于输入图像的不准确或虚构的细节。
  • 以往的研究主要通过直接偏好优化(DPO)技术来减轻幻觉,但这些方法通常忽视了视觉信息在对齐过程中的重要性。

研究方法

  • RE-ALIGN框架:提出了一个结合图像检索和DPO的对齐框架,通过检索与输入图像相似的图像来生成包含幻觉的候选回答,从而构建包含文本和视觉偏好的双重偏好数据集。
  • 偏好数据生成
    • 策略性掩码:对VLM生成的首选回答进行策略性掩码,掩盖与图像中对象、属性或逻辑关系相关的词汇。
    • 诱导幻觉:利用检索到的图像,提示VLM完成掩码后的回答,生成包含幻觉的候选回答。
    • 筛选幻觉回答:通过计算候选回答与原始首选回答的文本相似度,选择与原始回答相似度低于阈值的候选回答作为被拒绝的回答。
  • rDPO目标:提出了一个扩展的DPO目标(rDPO),在标准DPO的基础上增加了视觉偏好优化目标,使模型在文本和视觉两个模态上都更好地对齐人类偏好。

实验

  • 数据集:使用了包括POPE、HallusionBench、ScienceQA、TextVQA、MM-Vet、VisWiz、LLaVABench、MME和MMBench在内的多个幻觉检测和VQA基准数据集。
  • 基线方法:与POVID、CSR、SIMA和STIC等现有的VLM对齐框架进行比较。
  • 实验设置:使用LLaVA-v1.5-7B和LLaVA-v1.6-Mistral-7B作为骨干模型,从LLaVA-Instruct-150K数据集中采样11k图像构建偏好数据,使用GPT-4o mini生成QA对,并使用clip-vit-large-patch14进行图像编码。
  • 结果
    • 在幻觉检测基准测试中,RE-ALIGN在POPE和HallusionBench上均优于所有基线方法。
    • 在一般VQA任务中,RE-ALIGN在多个任务上取得了与基线相当或更好的性能,并在总体上取得了最佳结果。
    • 在不同大小和架构的VLMs上,RE-ALIGN均表现出良好的泛化性和可扩展性。

关键结论

  • RE-ALIGN通过图像检索和rDPO目标,有效地减少了VLMs生成的幻觉,提高了模型的可靠性和准确性。
  • RE-ALIGN不仅减轻了幻觉,还在多种VQA任务上取得了优异的性能,证明了其在提升模型泛化能力方面的有效性。
  • RE-ALIGN在不同大小和架构的VLMs上都表现出色,展示了其良好的泛化性和可扩展性。

限制与未来工作

  • 尽管RE-ALIGN在幻觉和一般VQA基准测试中表现出色,但在某些一般任务上并未总是达到最先进的结果,有时甚至不如原始VLMs。
  • 未来的研究探索可以消除这种对齐税(alignment tax)或找到这种权衡的最佳平衡点。
  • 随着更强大的对齐技术的发展,需要考虑这些技术可能被对抗性方法利用的风险,以及如何通过这些对抗性策略生成负样本,以促进更稳健和可靠的VLMs的发展。

论文通过详细的实验和分析,展示了RE-ALIGN框架在减轻VLMs幻觉和提升VQA任务性能方面的显著效果,并指出了未来研究的潜在方向。

2.Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

标题:多模态 Mamba:通过二次到线性蒸馏的仅解码器多模态状态空间模型

作者:Bencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang

文章链接:https://arxiv.org/abs/2502.13145

项目代码:https://github.com/hustvl/mmMamba

摘要:

最近的多模态大型语言模型 (MLLM) 取得了卓越的性能,但由于其二次计算复杂性、不断增长的键值缓存要求以及对单独视觉编码器的依赖,因此面临着部署挑战。我们提出了 mmMamba,这是一个通过使用适度的学术计算资源从现有 MLLM 中渐进式蒸馏来开发线性复杂度原生多模态状态空间模型的框架。我们的方法能够将经过训练的仅解码器的 MLLM 直接转换为线性复杂性架构,而无需预先训练的基于 LLM RNN 或视觉编码器。我们提出了一种种子策略,从训练有素的 Transformer 中雕刻 Mamba 和一个三阶段蒸馏配方,它可以有效地将知识从 Transformer 转移到 Mamba,同时保留多模态能力。我们的方法还支持灵活的混合架构,这些架构结合了 Transformer 和 Mamba 层,以实现可定制的效率-性能权衡。从基于 Transformer 的解码器专用 HoVLE 中提炼出来,mmMamba-linear 的性能与现有的线性和二次复杂度 VLM 相比具有竞争力,而 mmMamba-hybrid 进一步显著提高了性能,接近 HoVLE 的能力。在 103K 令牌时,与 HoVLE 相比,mmMamba 线性实现了 20.6 倍 × 的加速和 75.8% 的 GPU 内存减少,而 mmMamba 混合实现了 13.5 倍 × 的加速和 60.2% 的内存节省。

这篇论文试图解决什么问题?

这篇论文试图解决多模态大型语言模型(MLLMs)在实际部署中面临的挑战,主要关注以下三个方面的问题:

  • 计算复杂度问题:现有的MLLMs大多基于Transformer架构,其计算复杂度是序列长度的二次方(quadratic complexity)。这使得在处理长文本或高分辨率图像/视频时,计算成本和内存需求急剧增加,限制了模型在实际应用中的效率和可扩展性。
  • 依赖预训练视觉编码器:许多现有的多模态模型依赖于预训练的视觉编码器来处理图像信息,这种依赖增加了模型的复杂性,并且在训练和部署过程中需要额外的资源和计算成本。
  • 缺乏线性复杂度的解码器-only MLLMs:尽管已有研究尝试开发线性复杂度的多模态模型,但这些研究大多集中在编码器-解码器架构上,而解码器-only的线性复杂度多模态模型的研究相对较少。解码器-only架构在某些应用场景中具有优势,例如在需要自回归生成的任务中,因此开发线性复杂度的解码器-only MLLMs具有重要的研究价值。

为了解决这些问题,论文提出了一种名为mmMamba的框架,通过从现有的MLLMs中进行知识蒸馏,开发出线性复杂度的原生多模态状态空间模型(SSMs),并且不需要依赖于预训练的线性复杂度LLMs或视觉编码器。

论文如何解决这个问题?

论文通过提出一种名为 **mmMamba** 的框架来解决上述问题,具体方法如下:

1. 初始化策略(Seeding Strategy)

  • 参数继承:通过比较Transformer和Mamba-2的机制相似性,直接从预训练的Transformer层继承参数 WQ,WK,WV,WO,而不是从头开始训练。
  • 新参数初始化:引入额外的参数 Wγ 和 a,并初始化这些参数以使门控项 γt 接近1,从而在训练初期保留所有历史信息。同时,初始化因果卷积和输出门控参数,使其在训练初期不影响SSM的原始功能。

2. 三阶段蒸馏策略(Three-Stage Distillation Strategy)

  • 第一阶段(Stage-1):仅训练新引入的SSM特定参数,同时冻结继承的Transformer参数,通过均方误差(MSE)蒸馏损失对每一层的行为进行对齐。
  • 第二阶段(Stage-2):进一步训练所有Mamba-2参数,以更好地对齐学生Mamba-2层与教师Transformer层的行为。
  • 第三阶段(Stage-3):对整个模型进行端到端蒸馏,通过词级KL散度损失对齐学生Mamba-2与教师Transformer的输出。

3. 架构设计(Architecture Design)

  • mmMamba-linear:将所有Transformer层转换为Mamba-2层,实现完全线性复杂度的解码器-only VLM。
  • mmMamba-hybrid:在每固定数量的连续层中,保留第一层为Transformer,其余层转换为Mamba-2。这种混合设计在关键特征层次保留Transformer的建模能力,同时利用Mamba-2的线性复杂度进行大部分计算,从而在效率和性能之间实现灵活的权衡。

4. 实验验证

  • 性能验证:通过在多个视觉-语言基准测试上的实验,验证了mmMamba-linear和mmMamba-hybrid的性能。mmMamba-linear在多个基准测试中超越了现有的线性和二次复杂度的VLMs,而mmMamba-hybrid进一步提高了性能,接近教师模型HoVLE。
  • 效率验证:在固定提示和固定解码长度的场景下,mmMamba-linear和mmMamba-hybrid的推理速度比Transformer-based VLMs快近4倍。在处理长上下文时,mmMamba-linear和mmMamba-hybrid展现出低且稳定的延迟和内存使用,与HoVLE相比,在103K tokens时,mmMamba-linear实现了20.6倍的速度提升和75.8%的GPU内存节省,而mmMamba-hybrid实现了13.5倍的速度提升和60.2%的内存节省。

通过上述方法,mmMamba框架有效地将预训练的Transformer-based VLMs转换为线性复杂度的Mamba-2-based VLMs,同时保持了多模态理解能力,并显著提高了计算效率。

论文做了哪些实验?

论文中进行了以下几类实验来验证所提出的 mmMamba 框架的有效性和效率:

1. 性能验证实验

  • 实验目的:验证 mmMamba-linear 和 mmMamba-hybrid 在多模态任务上的性能,与现有的线性和二次复杂度的多模态语言模型(VLMs)进行比较。
  • 实验设置
    • 数据集:使用了 9 个公共基准测试,包括 6 个通用 VLM 基准测试(MME、MMBench、POPE、SEED、MMMU、MM-Vet)和 3 个视觉问答任务(TextVQA、ScienceQA、GQA)。
    • 训练资源:使用 8 个 NVIDIA A800 80GB GPU,采用 BF16 精度和 DeepSpeed ZeRO2 进行训练。
    • 优化器:使用 AdamW 优化器,学习率分别为 1e-3、5e-4 和 5e-5,分别对应三个蒸馏阶段。
  • 实验结果
    • mmMamba-linear:在 6/9 的基准测试中超越了现有的二次复杂度的 Transformer-based 解码器-only VLM EVE-7B,并且在参数数量上减少了 2 倍。与现有的线性复杂度的 VLMs(如 VisualRWKV-3B 和 VL-Mamba-3B)相比,mmMamba-linear 在多个基准测试中表现相当或更好。
    • mmMamba-hybrid:在所有基准测试中均优于 mmMamba-linear,并且接近教师模型 HoVLE 的性能。具体来说,在 MME、POPE、TextVQA 和 ScienceQA 基准测试中,mmMamba-hybrid 的性能分别为 63.7、86.7、55.1 和 86.9,而 HoVLE 的性能分别为 71.9、87.6、66.0 和 94.8。

2. 效率验证实验

  • 实验目的:验证 mmMamba-linear 和 mmMamba-hybrid 在推理速度和内存使用方面的效率,特别是在处理长上下文时。
  • 实验设置
    • 固定提示和固定解码长度:使用相同的示例图像和问题 “Describe the image specifically”,设置输出 tokens 数量为 256,记录模型的总时间(包括图像/文本提示预填充时间和解码时间)。
    • 长上下文处理:在单个 NVIDIA RTX 4090 GPU 上,比较 mmMamba-linear 和 mmMamba-hybrid 与 Transformer-based HoVLE 在不同上下文长度(4K、8K、16K、32K、64K、128K tokens)下的推理延迟和 GPU 内存使用情况。
  • 实验结果
    • 固定提示和固定解码长度:mmMamba-linear 和 mmMamba-hybrid 的推理速度显著高于 Transformer-based VLMs 和其他线性复杂度的 VLMs。具体来说,mmMamba-linear 的速度为 132.43 tokens/s,mmMamba-hybrid 的速度为 134.77 tokens/s,而 HoVLE 的速度为 33.03 tokens/s。
    • 长上下文处理:在 103K tokens 时,mmMamba-linear 相比 HoVLE 实现了 20.6 倍的速度提升和 75.8% 的 GPU 内存节省,mmMamba-hybrid 实现了 13.5 倍的速度提升和 60.2% 的内存节省。当上下文长度达到 128K tokens 时,HoVLE 由于 GPU 内存不足而无法解码,而 mmMamba-linear 和 mmMamba-hybrid 仍能正常解码。

3. 消融研究

  • 实验目的:验证不同训练阶段、参数初始化策略和混合架构策略对模型性能的影响。
  • 实验设置
    • 训练阶段:比较直接从 Transformer 转换到 Mamba-2 而不进行蒸馏训练的结果,以及逐步添加三个蒸馏阶段后的结果。
    • 参数初始化:比较从头开始初始化 Mamba-2 层(“from scratch”)、仅继承 WQ,WK,WV 参数(“inherit WQ,WK,WV”)和本文提出的初始化策略(“inherit WQ,WK,WV + mimic”)。
    • 混合架构:研究不同数量的 Transformer 层对混合架构性能的影响。
    • 混合策略:研究不同的 Transformer 层插入策略(尾部堆叠、头部堆叠、尾部交错、头部交错)对混合架构性能的影响。
  • 实验结果
    • 训练阶段:直接从 Transformer 转换到 Mamba-2 而不进行蒸馏训练会导致模型失去多模态理解能力。逐步添加蒸馏阶段可以显著提高模型性能。
    • 参数初始化:本文提出的初始化策略在所有基准测试中均优于其他两种初始化策略。
    • 混合架构:增加 Transformer 层的数量可以逐步提高混合架构的性能。具体来说,24 层 Mamba-2 和 8 层 Transformer 的混合架构在性能上与全 Transformer 模型 HoVLE 相当。
    • 混合策略:头部交错策略(Head-interleaved)在所有基准测试中表现最佳。

这些实验结果验证了 mmMamba 框架在多模态任务上的有效性和在处理长上下文时的高效性。

论文的主要内容:

本文提出了 **mmMamba**,这是一个用于开发线性复杂度的原生多模态状态空间模型(SSM)的框架,通过从现有的多模态大型语言模型(MLLMs)进行知识蒸馏来实现。该框架旨在解决现有 MLLMs 在部署时面临的挑战,如二次计算复杂度、不断增长的键值缓存需求以及对独立视觉编码器的依赖。mmMamba 通过一个三阶段蒸馏策略,将预训练的 Transformer-based VLMs 转换为线性复杂度的 Mamba-2-based VLMs,同时保持了多模态理解能力,并显著提高了计算效率。

背景知识

  • 多模态大型语言模型(MLLMs):通过整合预训练的视觉编码器和专门的连接器,扩展了大型语言模型(LLMs)的视觉理解能力。
  • 二次复杂度问题:基于 Transformer 的 MLLMs 在处理长序列时面临计算成本和内存需求急剧增加的问题。
  • 线性复杂度需求:开发线性复杂度的 MLLMs 对于提高效率和降低成本具有重要意义。

研究方法

  • 初始化策略(Seeding Strategy):从预训练的 Transformer 层继承参数 WQ,WK,WV,WO,并初始化 Mamba-2 特有的参数,如 Wγ 和 a,以模仿 Transformer 的行为。
  • 三阶段蒸馏策略
    1. 第一阶段(Stage-1):仅训练新引入的 SSM 特定参数,冻结继承的 Transformer 参数,通过 MSE 蒸馏损失对齐每一层的行为。
    2. 第二阶段(Stage-2):进一步训练所有 Mamba-2 参数,以更好地对齐层间行为。
    3. 第三阶段(Stage-3):对整个模型进行端到端蒸馏,通过 KL 散度损失对齐最终输出。
  • 架构设计
    • mmMamba-linear:将所有 Transformer 层转换为 Mamba-2 层,实现完全线性复杂度。
    • mmMamba-hybrid:在每固定数量的连续层中,保留第一层为 Transformer,其余层转换为 Mamba-2,以平衡效率和性能。

实验

  • 性能验证
    • 在 9 个公共基准测试上评估 mmMamba-linear 和 mmMamba-hybrid 的性能,包括 6 个通用 VLM 基准测试和 3 个视觉问答任务。
    • mmMamba-linear 在多个基准测试中超越了现有的线性和二次复杂度的 VLMs,且参数数量更少。
    • mmMamba-hybrid 进一步提高了性能,接近教师模型 HoVLE。
  • 效率验证
    • 在固定提示和固定解码长度的场景下,mmMamba-linear 和 mmMamba-hybrid 的推理速度显著高于 Transformer-based VLMs 和其他线性复杂度的 VLMs。
    • 在处理长上下文时,mmMamba-linear 和 mmMamba-hybrid 展现出低且稳定的延迟和内存使用,与 HoVLE 相比,在 103K tokens 时,mmMamba-linear 实现了 20.6 倍的速度提升和 75.8% 的 GPU 内存节省,而 mmMamba-hybrid 实现了 13.5 倍的速度提升和 60.2% 的内存节省。

关键结论

  • mmMamba 框架通过从预训练的 Transformer-based VLMs 进行知识蒸馏,成功开发出了线性复杂度的多模态状态空间模型,显著提高了计算效率,同时保持了多模态理解能力。
  • mmMamba-linear 和 mmMamba-hybrid 在多个基准测试中表现出色,证明了该框架的有效性和实用性。
  • 该框架为开发高效、可扩展的多模态模型提供了一种新的方法,适用于长序列处理和资源受限的部署场景。

3.RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

标题:RAD:通过基于 3DGS 的大规模强化学习训练端到端驾驶策略

作者:Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

文章链接:https://arxiv.org/abs/2502.13144

项目代码:https://hgao-cv.github.io/RAD/

摘要:

现有的端到端自动驾驶 (AD) 算法通常遵循模仿学习 (IL) 范式,该范式面临因果混淆和开环差距等挑战。在这项工作中,我们建立了一个基于 3DGS 的闭环强化学习 (RL) 训练范式。通过利用 3DGS 技术,我们构建了真实物理世界的照片级真实数字副本,使 AD 策略能够广泛探索状态空间,并通过大规模试错来学习处理分布式外场景。为了提高安全性,我们设计了专门的奖励,以指导政策有效应对安全关键事件并了解现实世界的因果关系。为了更好地与人类驾驶行为保持一致,IL 作为正则化术语被纳入 RL 训练中。我们引入了一个闭环评估基准,该基准由各种以前未见过的 3DGS 环境组成。与基于 IL 的方法相比,RAD 在大多数闭环指标中实现了更强的性能,尤其是碰撞率降低了 3 倍。此 https URL 上提供了丰富的闭环结果。

这篇论文试图解决什么问题?

这篇论文试图解决端到端自动驾驶(End-to-End Autonomous Driving, AD)算法在现实世界部署中面临的挑战,主要集中在以下两个方面:

  1. 因果混淆(Causal Confusion)
    • 现有的基于模仿学习(Imitation Learning, IL)的端到端自动驾驶算法主要通过学习人类驾驶行为的示范数据来训练网络。然而,这种范式主要捕捉的是观察(状态)和动作之间的相关性,而不是因果关系。因此,IL训练的策略可能难以识别规划决策背后的真正因果因素,导致所谓的“捷径学习”(shortcut learning),例如仅从历史轨迹外推未来轨迹。
    • 此外,IL训练数据主要包含常见驾驶行为,未能充分覆盖长尾分布,导致IL训练的策略在面对安全关键事件(如碰撞)时缺乏足够的敏感性,容易收敛到平凡解。
  2. 开环训练与闭环部署之间的差距(Open-loop Gap)
    • IL策略是通过使用分布良好的驾驶示范数据以开环方式训练的。然而,现实世界的驾驶是一个闭环过程,每一步的微小轨迹误差会随着时间累积,导致误差累积和分布外(out-of-distribution)场景。IL训练的策略在这些未见场景中往往表现不佳,引发了对其鲁棒性的担忧。

为了解决这些问题,论文提出了一种基于3D高斯溅射(3D Gaussian Splatting, 3DGS)技术的闭环强化学习(Reinforcement Learning, RL)训练范式。通过构建真实物理世界的逼真数字副本,使AD策略能够通过大规模的试错来广泛探索状态空间,并学习处理分布外的场景。同时,为了增强安全性,设计了专门的安全相关奖励,引导策略有效应对安全关键事件并理解现实世界的因果关系。此外,为了更好地与人类驾驶行为保持一致,将模仿学习作为强化学习训练中的正则化项。

论文如何解决这个问题?

论文通过以下方式解决端到端自动驾驶(AD)算法在现实世界部署中面临的挑战:

1. 提出基于3DGS的闭环强化学习(RL)训练范式

  • 3DGS技术:利用3D高斯溅射(3D Gaussian Splatting, 3DGS)技术构建真实物理世界的逼真数字副本。这种技术能够提供高度逼真的传感器数据,使AD策略能够在虚拟环境中进行大规模的试错学习,从而广泛探索状态空间并学习处理分布外的场景。
  • 闭环训练环境:通过3DGS构建的数字副本支持与AD策略的交互,允许在虚拟环境中进行闭环强化学习训练。这解决了使用真实世界环境进行闭环训练的安全风险和成本问题,同时也克服了现有模拟器无法提供逼真传感器数据的限制。

2. 设计专门的安全相关奖励

  • 奖励函数设计:为了确保AD策略能够有效应对安全关键事件并理解现实世界的因果关系,设计了专门的安全相关奖励函数。该奖励函数由以下四个部分组成:
    • 动态碰撞奖励(Dynamic Collision Reward):检测与动态障碍物的碰撞。
    • 静态碰撞奖励(Static Collision Reward):检测与静态障碍物的碰撞。
    • 位置偏差奖励(Positional Deviation Reward):衡量与专家轨迹的位置偏差。
    • 航向偏差奖励(Heading Deviation Reward):衡量与专家轨迹的航向偏差。
  • 奖励函数的作用:这些奖励函数通过惩罚不安全行为和鼓励与专家轨迹对齐的行为,引导AD策略在训练过程中学习安全驾驶行为。

3. 结合强化学习(RL)和模仿学习(IL)

  • 模仿学习作为正则化项:将模仿学习(IL)纳入强化学习(RL)训练中,作为正则化项。IL通过提供人类驾驶行为的示范数据,帮助RL训练的策略保持与人类驾驶行为的一致性,避免RL训练过程中可能出现的非人类行为。
  • 协同优化:RL和IL协同优化AD策略。RL通过建模因果关系和缩小开环差距来增强IL,而IL通过确保策略行为与人类驾驶行为的一致性来补充RL。这种结合方式既利用了RL在处理复杂环境和学习安全行为方面的优势,又保留了IL在保持人类驾驶风格方面的优势。

4. 三阶段训练范式

  • 感知预训练(Perception Pre-Training):使用地图和代理的真实标签来指导实例级标记的编码,训练BEV编码器、地图头和代理头。
  • 规划预训练(Planning Pre-Training):使用大规模真实世界驾驶示范数据来初始化动作分布,训练图像编码器和规划头。
  • 强化后训练(Reinforced Post-Training):在3DGS环境中进行RL和IL的协同训练,进一步优化AD策略。通过并行工作器进行大规模的rollout,收集数据并更新策略。

5. 优化动作空间和奖励传播

  • 动作空间设计:将动作空间分解为横向动作和纵向动作,并限制在0.5秒的时间范围内,简化了动作模型,降低了动作空间的维度,加速了RL训练的收敛。
  • 奖励传播:使用广义优势估计(Generalized Advantage Estimation, GAE)将奖励信号向前传播,优化前面步骤的动作分布,确保策略在累积误差的情况下仍能学习到有效的动作。

6. 引入辅助目标

  • 辅助目标设计:为了应对RL中常见的稀疏奖励问题,引入了与碰撞、偏差相关的密集辅助目标。这些辅助目标通过提供更频繁的反馈,帮助策略更快地收敛,并在训练过程中保持稳定的性能。
  • 辅助目标的作用:辅助目标通过调整动作分布,鼓励策略采取更安全的行为,如避免碰撞和减少与专家轨迹的偏差。这些目标与主目标(PPO目标)结合,形成了最终的优化目标。

通过上述方法,论文提出的RAD框架在3DGS构建的闭环评估基准上取得了优于现有IL方法的性能,特别是在碰撞率方面,RAD实现了3倍的降低。

论文做了哪些实验?

论文中进行了以下实验来验证所提出方法的有效性:

1. 实验设置(Experimental Settings)

  • 数据集和基准
    • 收集了2000小时的真实世界中人类专家驾驶演示数据。
    • 通过低成本自动化注释流程获取地图和代理的真实标签,用于第一阶段的感知预训练。
    • 使用自车的里程信息作为第二阶段规划预训练的监督。
    • 从收集的驾驶演示中选取4305个高碰撞风险的密集交通剪辑片段,并将其重建为3DGS环境。其中,3968个3DGS环境用于RL训练,337个3DGS环境作为闭环评估基准。
  • 评估指标
    • 动态碰撞比率(Dynamic Collision Ratio, DCR):与动态障碍物碰撞的频率。
    • 静态碰撞比率(Static Collision Ratio, SCR):与静态障碍物碰撞的频率。
    • 碰撞比率(Collision Ratio, CR):总碰撞频率,等于DCR和SCR之和。
    • 位置偏差比率(Positional Deviation Ratio, PDR):自车与专家轨迹的位置偏差频率。
    • 航向偏差比率(Heading Deviation Ratio, HDR):自车与专家轨迹的航向偏差频率。
    • 偏差比率(Deviation Ratio, DR):总偏差频率,等于PDR和HDR之和。
    • 平均偏差距离(Average Deviation Distance, ADD):在发生碰撞或偏差之前,自车与专家轨迹之间的平均最小距离。
    • 纵向抖动(Longitudinal Jerk):衡量纵向加速度变化,评估驾驶平顺性。
    • 横向抖动(Lateral Jerk):衡量横向加速度变化,评估驾驶平顺性。
    • 使用九个关键指标来评估AD策略的性能:

2. 消融研究(Ablation Study)

  • RL-IL比例分析
    • 分析了不同强化学习(RL)与模仿学习(IL)步骤混合比例对性能的影响。实验结果表明,当RL与IL的比例为4:1时,碰撞比率(CR)最低,同时保持了较低的平均偏差距离(ADD),表明在安全性和轨迹一致性之间取得了最佳平衡。
  • 奖励源分析
    • 研究了不同奖励组件对性能的影响。实验结果表明,包含所有奖励组件的完整奖励函数能够实现最低的碰撞比率(CR),同时保持稳定的平均偏差距离(ADD)。这证明了综合奖励函数在提升安全性和轨迹一致性方面的有效性。
  • 辅助目标分析
    • 考察了辅助目标对性能的影响。实验结果表明,与完整辅助目标设置相比,省略任何辅助目标都会导致碰撞比率(CR)上升,这突显了辅助目标在提升安全性方面的集体作用。特别是,仅保留辅助目标而省略PPO目标的设置(ID 1)的碰撞比率高于完整设置(ID 8),表明辅助目标与PPO目标结合时效果最佳。

3. 与现有方法的比较(Comparisons with Existing Methods)

  • 定量比较
    • 将RAD方法与现有的基于模仿学习的端到端自动驾驶方法(如VAD [17]、GenAD [49]和VADv2 [2])在提出的3DGS密集交通评估基准上进行了定量比较。RAD在大多数指标上均优于IL方法,特别是在碰撞比率(CR)方面,RAD实现了3倍的降低,这表明强化学习有助于AD策略学习通用的碰撞避免能力。
  • 定性比较
    • 提供了IL-only策略(未经过强化后训练)与RAD之间的定性比较。IL-only方法在动态环境中表现不佳,经常无法避免与移动障碍物的碰撞或管理复杂的交通情况。相比之下,RAD能够持续良好地表现,有效避免动态障碍物并处理具有挑战性的任务。这些结果突显了混合方法中闭环训练的优势,使其能够更好地应对动态环境。

4. 更多定性结果(More Qualitative Results)

  • 论文还提供了RAD和IL-only策略在各种驾驶场景下的更多定性比较,包括绕行、在密集交通中爬行、交通拥堵和U-turn操作等。这些结果进一步证明了RAD在生成更平滑轨迹、增强碰撞避免能力和提高复杂环境适应性方面的有效性。

论文的主要内容:

论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》提出了一种基于3D高斯溅射(3D Gaussian Splatting, 3DGS)技术的端到端自动驾驶(AD)策略训练方法。通过结合强化学习(RL)和模仿学习(IL),该方法旨在解决现有IL方法在现实世界部署中面临的因果混淆和开环差距问题。以下是论文的主要内容:

背景知识

  • 端到端自动驾驶(AD)算法通过直接将传感器输入映射到驾驶动作,提供系统简单性和泛化能力的优势。大多数现有方法基于模仿学习(IL),训练神经网络模仿人类驾驶行为,但存在因果混淆和开环差距问题。
  • 因果混淆:IL主要捕捉状态和动作之间的相关性而非因果关系,导致策略在面对安全关键事件时缺乏敏感性。
  • 开环差距:IL策略在开环方式下训练,而真实驾驶是闭环过程,导致IL策略在未见场景中表现不佳。

研究方法

  • 3DGS技术:利用3DGS技术构建真实物理世界的逼真数字副本,使AD策略能够在虚拟环境中进行大规模试错学习,探索状态空间并处理分布外场景。
  • 奖励设计:设计专门的安全相关奖励,引导策略有效应对安全关键事件并理解现实世界的因果关系。
  • 结合RL和IL:将IL纳入RL训练作为正则化项,使策略保持与人类驾驶行为的一致性,同时利用RL建模因果关系和缩小开环差距。
  • 三阶段训练范式
    • 感知预训练:使用地图和代理的真实标签训练BEV编码器、地图头和代理头。
    • 规划预训练:使用大规模驾驶示范数据初始化动作分布,训练图像编码器和规划头。
    • 强化后训练:在3DGS环境中进行RL和IL的协同训练,优化AD策略。

实验

  • 数据集和基准:收集2000小时的驾驶演示数据,从中选取4305个高碰撞风险的密集交通剪辑片段,重建为3DGS环境用于训练和评估。
  • 评估指标:使用动态碰撞比率(DCR)、静态碰撞比率(SCR)、位置偏差比率(PDR)、航向偏差比率(HDR)等九个关键指标评估性能。
  • 消融研究
    • RL-IL比例分析:发现4:1的RL-IL比例在安全性和轨迹一致性之间取得了最佳平衡。
    • 奖励源分析:完整的奖励函数在降低碰撞比率(CR)和保持轨迹一致性方面表现最佳。
    • 辅助目标分析:辅助目标有助于降低碰撞比率,与PPO目标结合时效果最佳。
  • 与现有方法比较:RAD在大多数指标上优于现有的IL方法,特别是在碰撞比率(CR)方面,实现了3倍的降低。
  • 定性比较:RAD在各种驾驶场景下表现出色,有效避免碰撞并处理复杂交通情况。

关键结论

  • RAD通过结合RL和IL,利用3DGS技术构建的逼真数字副本进行训练,有效解决了现有IL方法在安全性和轨迹一致性方面的不足。
  • 在3DGS环境中的闭环评估中,RAD在碰撞比率(CR)等关键指标上显著优于现有IL方法,证明了其在处理复杂动态环境中的优势。
  • 论文还指出,当前3DGS环境的交互性和渲染技术仍有改进空间,未来工作将致力于解决这些问题并进一步提升AD策略的性能和安全性。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 图像检索与偏好数据生成
  • 2. 扩展的直接偏好优化(rDPO)
  • 3. 实验验证
  • 4. 关键结论
  • 1. VLMs对齐实验
  • 2. 模型规模和架构的泛化性实验
  • 3. rDPO目标的影响实验
  • 4. 偏好数据规模的影响实验
  • 5. 定性分析
  • 背景知识
  • 研究方法
  • 实验
  • 关键结论
  • 限制与未来工作
  • 1. 初始化策略(Seeding Strategy)
  • 2. 三阶段蒸馏策略(Three-Stage Distillation Strategy)
  • 4. 实验验证
  • 1. 性能验证实验
  • 2. 效率验证实验
  • 3. 消融研究
  • 背景知识
  • 研究方法
  • 实验
  • 关键结论
  • 1. 提出基于3DGS的闭环强化学习(RL)训练范式
  • 2. 设计专门的安全相关奖励
  • 3. 结合强化学习(RL)和模仿学习(IL)
  • 4. 三阶段训练范式
  • 5. 优化动作空间和奖励传播
  • 6. 引入辅助目标
  • 1. 实验设置(Experimental Settings)
  • 2. 消融研究(Ablation Study)
  • 3. 与现有方法的比较(Comparisons with Existing Methods)
  • 4. 更多定性结果(More Qualitative Results)
  • 背景知识
  • 研究方法
  • 实验
  • 关键结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档