2025年3月18日,理想汽车在英伟达GTC 2025大会上展示了其自研的MindVLA技术,宣称通过整合视觉、语言和动作能力,将汽车从单纯的交通工具转变为“贴心的专职司机”。这一亮相迅速将Vision-Language-Action(视觉-语言-动作,简称VLA)模型推向行业关注的焦点。
然而,MindVLA只是VLA在智能驾驶领域的一个实例。作为一种通用技术范式,VLA的起源、发展和潜力远超单一企业的实践,其意义不仅限于自动驾驶,更指向物理智能体的广阔未来。本文将从MindVLA切入,全面剖析VLA模型的本质、技术内核、应用前景及行业挑战,探索其如何为智能驾驶乃至更广泛领域铺设前行之路。
图源:理想汽车微信公众号截图
VLA模型的起源与核心理念
VLA模型的诞生源于机器人领域的突破。2023年,Google DeepMind发布了Robotics Transformer 2(RT-2),首次提出了VLA概念。RT-2通过互联网规模的视觉-语言数据和机器人轨迹数据训练,能够理解“把掉在桌子边的袋子捡起来”这样的指令并生成相应动作。这一模型在视觉-语言模型(VLM,如OpenAI的CLIP)基础上新增“动作”模块,从理解转向执行,开创了VLA范式。随后,这一理念被引入智能驾驶领域,成为端到端自动驾驶模型的升级方向。
RT-2 图源:Deepmind官网
VLA模型的核心在于通过统一的神经网络,将感知(视觉)、理解(语言)和决策(动作)无缝整合。传统自动驾驶系统依赖模块化的感知、预测和规划设计,虽然结构清晰,但在复杂场景中容易因误差累积或规则局限而失效。VLA则采用数据驱动的方式,直接从原始输入映射到最终输出,减少人为干预,提升适应性。MindVLA就是这一理念的实践案例,其基于端到端与VLM的双系统架构,通过3D空间编码器、语言模型和Diffusion优化轨迹,展示了VLA在驾驶场景中的潜力。然而,VLA的意义远不止于此——它是一种通用框架,旨在赋予智能体类似人类的认知能力,适用范围超出行驶任务,指向更广阔的物理世界应用。
VLA模型的技术支柱与演进
VLA模型的技术内核由视觉、语言和动作三大支柱构成,其演进历程反映了多模态AI的逐步成熟。
视觉处理是VLA的基础。传统自动驾驶依赖二维BEV(鸟瞰图)或LiDAR点云,而VLA模型更倾向于三维空间理解。2024年,麻省理工学院与加州大学伯克利分校的研究团队提出了3D-VLA模型,通过引入3D表征技术捕捉多尺度几何特征和语义信息,提升复杂场景的感知能力。这种从二维到三维的跃迁,成为VLA视觉技术的标志性进步。
语言智能是VLA区别于传统端到端模型的关键。2024年6月,普林斯顿大学与纽约大学合作开发的OpenVLA成为开源领域的里程碑。这款7B参数模型基于Meta的Llama 2语言模型和SigLIP视觉编码器训练,能处理“向左转”或“找到最近的停车位”这样的指令。
OpenVLA 图源:https://openvla.github.io/
动作生成是VLA的输出环节,负责将感知和理解转化为可执行决策。RT-2通过轨迹编码直接输出机器人动作,开辟了这一领域的先河。3D-VLA则结合世界模型——一种源于DeepMind游戏AI研究的生成式预测技术——预测未来状态,提升复杂场景的博弈能力。此外,基于人类反馈的强化学习(RLHF)正成为标配。扩散模型(Diffusion)的引入也为动作生成带来了新可能,能根据外部条件动态调整结果,而常微分方程采样器的优化则确保了实时性。
从RT-2的机器人实验,到OpenVLA的开源探索,再到3D-VLA的驾驶应用,VLA模型的技术支柱不断演进,为智能驾驶和物理智能体提供了坚实支撑。
VLA模型在智能驾驶中的应用
VLA模型在智能驾驶中的应用潜力在于其从被动执行向主动推理的转变,这一能力在多个场景中得到了体现。
语言交互的引入打破了传统系统的局限。用户可以通过自然语言与车辆沟通,例如“开慢一点”或“带我去找吃火锅”,车辆能在无导航信息的情况下自主完成任务。OpenVLA的实验已在实验室验证了这一能力的可行性,MindVLA进一步将其应用于真实驾驶场景,展示了车辆在陌生环境中自主探索路径的潜力。这种功能在偏远地区或地图缺失的区域尤为实用。
视觉与语言的融合赋予了车辆通识能力。VLA模型能识别环境中的通用对象(如商店招牌),甚至根据照片定位用户位置。MindVLA通过自研技术实现了类似效果,例如识别商业标识并据此导航。这种能力超越了传统目标检测的预设范围,为陌生环境下的导航提供了新解法。
自主决策能力则让VLA在复杂场景中脱颖而出。例如,在地库或园区中,车辆能在无外部指引的情况下寻找停车位,甚至应对死胡同等情况。3D-VLA通过世界模型预测未来状态,增强了这一能力;MindVLA则结合闭环训练,展现了在长尾场景中的适应性。这种从规则驱动到数据驱动的转变,标志着VLA向L4高度自治的迈进。
VLA模型的行业影响和面临的挑战
VLA模型可能推动技术范式的转折。传统模块化系统因可解释性强而被广泛采用,但面对L4级别的复杂需求,端到端与VLA的融合正成为趋势。3D-VLA的世界模型和OpenVLA的开源框架等技术,或将成为行业参考。这种竞争不仅限于技术本身,还涉及数据、算力和工程能力的全面较量。
不过,VLA模型的发展仍面临多重挑战。首先是算力瓶颈。VLA的参数规模庞大(如OpenVLA 7B、RT-2-X 55B),车端实时推理需高性能芯片支持。英伟达的Thor芯片被视为潜在解决方案,但其交付延迟和禁运等风险或拖慢行业进度。其次是数据需求。VLA依赖海量多模态数据训练,尤其在长尾场景中,数据采集和标注仍是难题。世界模型虽能通过仿真缓解这一问题,但真实世界的多样性难以完全复现。此外,安全与监管是关键。VLA的“黑盒”特性可能引发信任危机,如何提升可解释性并通过严格验证,将决定其商用前景。
结语
VLA模型的意义远超智能驾驶。从RT-2的机器人实验,到OpenVLA的开源探索,到3D-VLA的驾驶应用,再到MindVLA的问世,这一技术范式正在为物理智能体开辟新路径。它不仅提升了车辆的智能水平,也为具身智能、工业自动化等领域提供了通用框架。未来,随着算力提升和数据积累,VLA可能成为连接物理世界与数字世界的桥梁,推动人工智能从虚拟助手走向现实执行。智能驾驶只是VLA故事的起点,其真正的舞台将是整个物理智能体的生态。
领取专属 10元无门槛券
私享最新 技术干货