理想回应王兴兴质疑：“最好的自动驾驶”是用VLA还是世界模型？

文章来源：企鹅号 - 芝能汽车

芝能科技出品

理想汽车自动驾驶研发高级副总裁郎咸朋发微博，回应宇树科技创始人王兴兴对VLA（视觉-语言-动作模型）的质疑，强调VLA（也是理想目前辅助驾驶技术路线）是当前自动驾驶的最佳模型方案。

回应背后，是中国智能车行业未来十年的路线之争：

◎ 自动驾驶模型选 VLA（Vision-Language-Action），还是世界模型（World Model）？

◎ 自动驾驶是“软件功能”，还是一整套具身智能系统？

◎ 数据闭环、软硬件一体化、自研芯片……哪些会真正决定一家车企在 L4 自动驾驶时代的生死？

这是在回答三个问题：

◎自动驾驶的最佳技术路线是什么？

◎为什么理想要押注具身智能？

◎理想的 VLA 是否真的能带来驾驶体验的结构性提升？

这正是大家很关注的内容，目前也没有共识，而是需要等实践的结果来看谁对谁错。

问题一：为什么郎咸朋说“VLA就是自动驾驶最好的模型方案”？

郎咸朋的回应是这样的：

VLA 是最佳方案，因为它具备对物理世界的认知涌现能力，并且能与具身智能系统深度适配，而数据决定一切。

我们理解这次的发言是和 OTA 8.1 更新的体验，给出的实际效果的提升。当模型与系统深度适配，会发生什么？明显体验提升是 VLA 技术路线的实践结果。

红灯刹停更稳了是把把视觉感知从 1K 升级到 2K，把识别距离从 100 米提升到 200 米，背后是车能更早看到红灯、模型能更早规划减速，刹停动作变成“提前、顺滑、自然”，结果是告别过去那种“紧一下”的迟滞感，这正体现“整体系统能力”：感知更强、模型更准、行为更稳。并没有在模型层面变更大，而是模型与系统更适配。

岔路判断更准了，理想用约 600 万 Clips 优质驾驶数据重新训练了 VLA 模型。效果就是主辅路切换更自然、不该变道不再乱试探和岔路选择不再犹豫拖沓，这是百万车辆构建的数据闭环加上世界模型生成数据补全难样本，世界模型而是为 VLA 生成“考题”，在这里世界模型更适合做考场，而不是考生。

为什么不是 GPT-style 世界模型？为什么不是端到端？

主要是因为物理世界太复杂，世界模型难以直接做“行为决策”，而VLA 更擅长“理解场景选择动作”并能与实际车辆的感知、规划、执行器深度协同。

行业大模型普遍追求“抽象世界理解”，辅助驾驶需要的是“精准的物理行为”，VLA 恰好直接连接视觉、语言、动作，是操作世界的模型。

理想在这里的答案就是“VLA 是实现 L4 的最短路径”。

问题二：为什么具身智能将决定自动驾驶的未来？

第二段，我们理解为具身智能最终比拼的是整体系统能力，未来的竞争是“谁能把车变成机器人”。

具身智能的“四件套”：感知（眼睛）、模型（大脑）、芯片（心脏）和本体（身体）。

这套框架在技术上有非常实质的含义：感知弱，模型再强也盲；模型强，但执行器慢，体验依然差；芯片算力跟不上，所有能力都是纸面能力；本体（线控底盘）不稳定，安全性就无法保证。

只要有一个环节依赖供应商，就无法构建真正的汽车机器人。自动驾驶不是拼模型，是拼系统迭代速度，而数据是决定迭代速度的根基，车辆每天贡献海量驾驶数据，使得 VLA 模型可以几乎每周更新一次世界认知。

理想认为VLA 是通往“下一代机器人系统”的最通用架构。郎咸朋敢说“VLA 是最好的自动驾驶模型”的底气是因为它对未来最通用。

◎VLA 在自动驾驶中已经表现出“物理认知涌现”；

◎VLA 的视觉—语言—动作序列，与机器人控制结构高度一致；

◎VLA 可以通用于汽车机器人、AI 眼镜、未来的家庭机器人，世界模型生成的数据进一步训练 VLA，让它获得更通用的物理理解。

从理想看来，世界模型不是自动驾驶的“终极解法”，世界模型 + 端到端路线是一条路线，VLA + 具身智能系统是一条路线，这两条路线不同，将在未来 3–5 年拉开巨大差距。

小结

现在讨论的问题是汽车机器人应该具备什么能力、模型怎么与系统适配，自动驾驶路线之争，已经升级为具身智能路线之争。

发表于: 7小时前2025-12-12 07:32:31
原文链接：https://page.om.qq.com/page/OpsW2WDATp94GG535HsDCMsw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

理想回应王兴兴质疑：“最好的自动驾驶”是用VLA还是世界模型？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐