芝能科技出品
理想汽车自动驾驶研发高级副总裁郎咸朋发微博,回应宇树科技创始人王兴兴对VLA(视觉-语言-动作模型)的质疑,强调VLA(也是理想目前辅助驾驶技术路线)是当前自动驾驶的最佳模型方案。
回应背后,是中国智能车行业未来十年的路线之争:
◎ 自动驾驶模型选 VLA(Vision-Language-Action),还是 世界模型(World Model)?
◎ 自动驾驶是“软件功能”,还是一整套 具身智能系统?
◎ 数据闭环、软硬件一体化、自研芯片……哪些会真正决定一家车企在 L4 自动驾驶时代的生死?
这是在回答三个问题:
◎自动驾驶的最佳技术路线是什么?
◎为什么理想要押注具身智能?
◎理想的 VLA 是否真的能带来驾驶体验的结构性提升?
这正是大家很关注的内容,目前也没有共识,而是需要等实践的结果来看谁对谁错。
问题一:为什么郎咸朋说“VLA就是自动驾驶最好的模型方案”?
郎咸朋的回应是这样的:
VLA 是最佳方案,因为它具备对物理世界的认知涌现能力,并且能与具身智能系统深度适配,而数据决定一切。
我们理解这次的发言是和 OTA 8.1 更新的体验,给出的实际效果的提升。当模型与系统深度适配,会发生什么?明显体验提升是 VLA 技术路线的实践结果。
红灯刹停更稳了是把把视觉感知从 1K 升级到 2K,把识别距离从 100 米提升到 200 米,背后是车能更早看到红灯、模型能更早规划减速,刹停动作变成“提前、顺滑、自然”,结果是告别过去那种“紧一下”的迟滞感,这正体现“整体系统能力”:感知更强 、模型更准、行为更稳。并没有在模型层面变更大,而是模型与系统更适配。
岔路判断更准了,理想用 约 600 万 Clips 优质驾驶数据重新训练了 VLA 模型。效果就是主辅路切换更自然、不该变道不再乱试探和岔路选择不再犹豫拖沓,这是百万车辆构建的数据闭环 加上世界模型生成数据补全难样本,世界模型而是为 VLA 生成“考题”,在这里世界模型更适合做考场,而不是考生。
为什么不是 GPT-style 世界模型?为什么不是端到端?
主要是因为物理世界太复杂,世界模型难以直接做“行为决策”,而VLA 更擅长“理解场景 选择动作”并能与实际车辆的感知、规划、执行器深度协同。
行业大模型普遍追求“抽象世界理解”,辅助驾驶需要的是“精准的物理行为”,VLA 恰好直接连接视觉、语言、动作,是操作世界的模型。
理想在这里的答案就是“VLA 是实现 L4 的最短路径”。
问题二:为什么具身智能将决定自动驾驶的未来?
第二段,我们理解为具身智能最终比拼的是整体系统能力,未来的竞争是“谁能把车变成机器人”。
具身智能的“四件套”:感知(眼睛)、模型(大脑)、芯片(心脏)和本体(身体)。
这套框架在技术上有非常实质的含义:感知弱,模型再强也盲;模型强,但执行器慢,体验依然差;芯片算力跟不上,所有能力都是纸面能力;本体(线控底盘)不稳定,安全性就无法保证。
只要有一个环节依赖供应商,就无法构建真正的汽车机器人。自动驾驶不是拼模型,是拼系统迭代速度,而数据是决定迭代速度的根基,车辆每天贡献海量驾驶数据,使得 VLA 模型可以几乎每周更新一次世界认知。
理想认为VLA 是通往“下一代机器人系统”的最通用架构。郎咸朋敢说“VLA 是最好的自动驾驶模型”的底气是因为它对未来最通用。
◎VLA 在自动驾驶中已经表现出“物理认知涌现”;
◎VLA 的视觉—语言—动作序列,与机器人控制结构高度一致;
◎VLA 可以通用于汽车机器人、AI 眼镜、未来的家庭机器人,世界模型生成的数据进一步训练 VLA,让它获得更通用的物理理解。
从理想看来,世界模型不是自动驾驶的“终极解法”,世界模型 + 端到端路线是一条路线,VLA + 具身智能系统是一条路线,这两条路线不同,将在未来 3–5 年拉开巨大差距。
小结
现在讨论的问题是汽车机器人应该具备什么能力、模型怎么与系统适配,自动驾驶路线之争,已经升级为具身智能路线之争。