摘要
视觉-语言-动作(Vision-Language-Action, VLA)模型作为具身智能的核心范式,正推动机器人及自动驾驶向通用决策系统演进。然而,传统监督微调(SFT)依赖高质量演示数据、泛化能力有限、难以适应动态环境等瓶颈日益凸显。强化学习(RL)技术通过引入目标驱动、环境交互与奖励信号,为突破VLA模型的上限提供了关键路径。
图1.图片来源于网络
VLA模型的瓶颈与RL的赋能契机
VLA模型通过预训练(大规模视觉语言数据)与监督微调(机器人演示数据)获得多模态理解与动作生成能力。但其落地面临三大核心挑战:
强化学习的核心价值在于:
RL优化VLA模型的核心技术路径
2025年的研究聚焦于高效、安全、可扩展的RL-VLA融合范式,涌现出以下关键方向:
1. 高效微调框架:离线-在线协同与一致性策略
ConRFT (Reinforced Fine-Tuning via Consistency Policy):提出两阶段微调框架。
图1 ConRFT框架
RIPT-VLA (Interactive Post-Training):开创性提出在传统预训练+SFT后增加第三阶段—互动式后训练。
图2 RIPT-VLA框架
2. 奖励工程与偏好对齐:从稀疏反馈到密集指导
ReinboT:密集奖励预测:针对长视界操作任务,提出将任务自动分解为子目标序列,并设计包含4要素的密集奖励函数:
该奖励引导VLA模型预测最大化累积回报(ReturnToGo)的动作,显著提升操作鲁棒性与稳定性。
图3 端到端的ReinboT框架
GRAPE (Generalizing Robot Policy via Preference Alignment):通过轨迹级偏好优化 (TPO) 实现与任意目标(安全、效率、任务完成度)的对齐。
图4 GRAPE框架
3. 架构创新与训练稳定性保障
V-Triune (MiniMax):首个面向VLM后训练的统一视觉RL框架,解决感知与推理任务无法联合优化的问题。核心创新:
图5 V-Triune框架
4. 世界模型与云端-车端协同
图6. 2025年代表性RL-VLA方法核心创新与性能对比
从实验室到产业落地
机器人操控:RL赋能的VLA在LIBERO、MetaWorld等基准上普遍将成功率提升至90%+,尤其在长程任务和少样本场景优势显著。
自动驾驶:
理想汽车VLA司机模型结合RLHF与世界模型仿真,计划2026年落地城市道路。
小鹏汽车基于云端大模型蒸馏+车端VLA,实现“后装算力控车”。
挑战与未来方向
尽管成果显著,RL-VLA融合仍面临严峻挑战:
1. 奖励设计普适性:手工设计密集奖励(如ReinboT)复杂且需领域知识;稀疏/二元奖励虽简单(如RIPT)但可能限制复杂任务性能。方向:结合LLM自动生成奖励、探索无奖励RL。
2. 安全与探索平衡:真实世界交互成本高且风险大。方向:世界模型仿真、可信安全约束策略、人机协作探索(如ConRFT的HIL)。
3. 异构数据协同:如何高效融合离线演示、在线交互、偏好数据及多任务数据仍需探索。
4. 系统级整合:实现“大脑”(VLM)与“小脑”(底层控制)的端到端训练与闭环推理仍处早期。
5. 计算成本:训练超大VLA基座模型及在线RL对算力要求极高。方向:更高效RL算法、分布式训练优化。
总结
2025年,强化学习已成为释放VLA模型潜力的关键引擎。通过高效微调框架(ConRFT, RIPT)、创新奖励机制(ReinboT, GRAPE)、统一训练架构(V-Triune) 及云端-世界模型支持,RL显著提升了VLA的样本效率、任务性能、泛化能力与目标对齐性,并推动其在机器人、自动驾驶等领域的快速落地。未来研究需着力解决奖励普适性、安全保障、系统整合与计算效率等核心挑战,以实现VLA驱动的通用具身智能体的终极愿景。
参考文献
1. ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy. Chen et al. arXiv:2502.05450 (2025).
2. GRAPE: Generalizing Robot Policy via Preference Alignment. Zhang et al. arXiv:2411.19309 (2024/25).
3. V-Triune: MiniMax’s Unified Visual RL Framework for VLM Post-Training. Yan et al. arXiv:2505.18129 (2025).
4. RIPT-VLA: Interactive Post-Training for Vision-Language-Action Models. Tan et al. arXiv:2505.XXXXX (2025).
5. ReinboT: Amplifying Robot Visual-Language Manipulation with RL. (Institution: Zhejiang Univ. & Westlake Univ.) (2025).
相关阅读:2024年度历史文章大汇总
特别提醒:有意购买智元灵犀系列和宇树系列产品的朋友,以及需要人形机器人二次开发的朋友,后台发送“人形机器人”获取我的联系方式哦,也欢迎交流。
以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除