
近年来,端到端自动驾驶技术逐渐成为行业主流,而融合视觉、语言与动作的 VLA(Vision-Language-Action)模型则被视为突破传统模块化瓶颈的关键路径。然而,依赖模仿学习的 VLA 模型长期受分布偏移、因果混淆等难题制约,闭环驾驶的安全与泛化能力始终面临挑战。
华中科技大学与小米汽车团队近日联合发布了基于在线强化学习的自动驾驶 VLA 框架——MindDrive,首次实现了在闭环环境中通过实时交互优化驾驶策略,在权威基准测试 Bench2Drive 中刷新同参数模型性能纪录,为 VLA 在自动驾驶领域的落地提供了全新的技术范式。

论文地址:https://arxiv.org/abs/2512.13636v1 项目地址:https://xiaomi-mlab.github.io/MindDrive/
当前主流的端到端自动驾驶系统通常由感知、预测、规划等多个模块串联而成,虽然在结构化场景表现稳定,但缺乏对复杂场景的常识推理与泛化能力。引入视觉语言模型(VLM)后,模型虽具备了一定的推理能力,但大多仍基于模仿学习——即通过专家数据拟合驾驶行为。这类方法容易因数据分布偏差和因果混淆,在实际闭环驾驶中出现错误累积,甚至引发不可逆的安全风险。
为突破模仿学习的局限,研究者尝试引入强化学习,然而自动驾驶的动作空间是连续的轨迹空间,直接应用在线强化学习探索效率极低:

MindDrive 的整体架构包含两个核心组件:决策专家与动作专家。两者共享同一视觉编码器与大语言模型基座(Qwen2-0.5B),仅通过不同的 LoRA 参数进行差异化适配:

训练流程分为两阶段:
通过大语言模型生成与人工筛选,构建高质量的“语言–轨迹”对齐数据,使模型初步建立从语言指令到驾驶动作的映射关系,为强化学习提供可靠起点。

在 CARLA 仿真环境中进行闭环交互训练,模型根据实时环境反馈持续优化策略。团队设计了稀疏奖励机制:成功抵达目的地奖励 +1,发生碰撞、闯红灯等事件则奖励 -1,促使模型学习安全、高效的驾驶行为。
该方法首次在自动驾驶 VLA 模型中实现在线强化学习训练,通过环境反馈直接提升模型的推理与决策能力。
作者在Bench2Drive数据进行闭环评估测试,仅使用 0.5B 参数量轻量化 LLM 的 MindDrive,取得了:
性能全面超越同参数模仿学习基线,甚至达到与 7B 参数量级模型 ORION 相当的水平,同时显著领先于离线强化学习方法 Raw2Drive 及多个现有 VLA 驾驶模型。
这表明,通过在线交互进行策略优化,能极大提升模型在复杂动态环境中的泛化与决策能力,且轻量化架构更适合车载部署。

研究表明,逐步引入不同的惩罚/奖励机制能持续提升模型性能:

图5的定性对比清晰揭示了强化学习阶段的价值:
本文提出了一种名为MindDrive的创新性自动驾驶框架,该框架将语言作为在线强化学习(RL)的接口。MindDrive通过将语言指令映射为动作,将探索空间转化为离散语言空间,从而降低强化学习成本。该框架还使大型语言模型能够在闭环模拟器中通过动作反馈优化推理能力。我们在提出的在线强化学习训练框架内开展了实验。实验表明,MindDrive以轻量级模型实现了业界领先的性能。据我们所知,这是首次在交互式模拟器中成功训练视觉-语言-动作协同的自动驾驶模型。我们期待这项工作能为自动驾驶领域提供宝贵启示。局限性。受限于现实世界交互式模拟器的缺失,我们的评估仅限于CARLA模拟器[8]。此外,同步多个CARLA模拟器的技术挑战阻碍了从相同初始状态评估替代动作的可能性,限制了我们对GRPO算法的应用。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。