芝能科技出品
2025年被称为“VLA上车元年”,以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。
VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了“思维链”技术,实现了全局上下文理解与类人推理能力,革命性技术的落地将推动智能驾驶从“功能时代”迈向“体验时代”,并可能在未来两年内改写智能驾驶市场的竞争格局。
我们从VLA的定义与核心价值、以及其对2025年头部车企智能驾驶性能的影响展开深度分析。
01
什么是VLA,
为什么智能驾驶要切换到VLA?
● 什么是 VLA?
VLA 即视觉语言动作模型(Vision - Language - Action Model),最早由 DeepMind 于 2023 年提出并应用在机器人领域。它能够输入给定的文本和视觉数据,输出机器人可执行的动作,具有 AI 与物理世界交互的天然基因。
◎ 从整体框架来看,VLA 可视为 VLM(视觉语言模型)与端到端模型的结合体。
VLM 着重于图像和场景的理解,为智驾决策规划提供输入;而 VLA 则将端到端与多模态大模型更彻底地融合,能够根据感知直接生成车辆的运动规划和决策,更接近 “图像输入、控制输出” 的端到端智驾理想状态。
Google 的 RT - 2 模型通过将 VLM 直接应用于机器人控制,实现了视觉、语言和动作的无缝衔接,提升了机器人的泛化能力和适应性。
◎ 在自动驾驶领域,VLA 模型可以从传感器数据中提取丰富的环境信息,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令。
● 智能驾驶切换到 VLA 的原因
随着城区NOA(Navigate on Autopilot)的普及,用户对智能驾驶体验的需求从“能用”转向“好用”。
传统VLM或端到端方案虽然在感知与决策方面有了显著提升,但在复杂路况下仍存在局限:
◎短视化问题:现有系统通常只能应对7秒内的路况推理,而在突发情况(如交通指挥手势)中表现不足。
◎缺乏解释能力:用户对“为什么这么开”的需求未被充分满足,导致体验层面信任不足。
◎决策全局性不足:面对动态复杂场景,传统方案难以统筹多重变量并实现安全优化。
VLA的引入不仅补足了技术短板,也标志着智能驾驶从探索期进入规模化落地期。在2025年,VLA的量产落地预计将推动城区NOA渗透率突破个位数,进一步缩短行业格局的技术差距。
智能驾驶领域的技术路线经历了重大变革。那些能够迅速掌握并应用VLA的企业,已经在竞争中占据了有利位置,并展示了其在技术创新方面的前瞻性。
市场竞争焦点从单纯的功能实现转向了更深层次的技术范式竞争,强调技术架构的先进性和可持续性发展。
VLA技术的应用不仅推动了企业在相关技术研发上的投入,还促使整个行业重新审视和制定相应的标准与规范,以适应新技术带来的挑战,确保智能驾驶的安全性、可靠性和可解释性,从而促进该行业的健康稳定发展。
能否及时跟上这一波技术革新潮流,成为了决定企业是否能在未来智能驾驶市场中脱颖而出的关键因素。
02
2025年VLA上车后,
智能驾驶头部车企
的性能会拉开差距吗?
2025年,随着VLA技术的上车,智能驾驶头部车企的性能将显著拉开差距,主要体现在技术积累、数据规模和算力支持等方面,头部企业在端到端和视觉语言模型(VLM)领域已有丰富的经验积累,能够更快实现VLA的研发和落地。
此外,通过爆款车型积累了海量驾驶数据,为VLA的训练和优化提供了坚实基础。英伟达Thor等高性能芯片的量产也为VLA的上车提供了强大的算力保障,头部车企在芯片适配和优化方面具备先发优势。
● “技术-数据飞轮”的竞速:
领取专属 10元无门槛券
私享最新 技术干货