首页
学习
活动
专区
圈层
工具
发布

理想回应王兴兴质疑:“最好的自动驾驶”是用VLA还是世界模型?

芝能科技出品

理想汽车自动驾驶研发高级副总裁郎咸朋发微博,回应宇树科技创始人王兴兴对VLA(视觉-语言-动作模型)的质疑,强调VLA(也是理想目前辅助驾驶技术路线)是当前自动驾驶的最佳模型方案。

回应背后,是中国智能车行业未来十年的路线之争:

◎ 自动驾驶模型选 VLA(Vision-Language-Action),还是 世界模型(World Model)?

◎ 自动驾驶是“软件功能”,还是一整套 具身智能系统?

◎ 数据闭环、软硬件一体化、自研芯片……哪些会真正决定一家车企在 L4 自动驾驶时代的生死?

这是在回答三个问题:

自动驾驶的最佳技术路线是什么?

为什么理想要押注具身智能?

理想的 VLA 是否真的能带来驾驶体验的结构性提升?

这正是大家很关注的内容,目前也没有共识,而是需要等实践的结果来看谁对谁错。

问题一:为什么郎咸朋说“VLA就是自动驾驶最好的模型方案”?

郎咸朋的回应是这样的:

VLA 是最佳方案,因为它具备对物理世界的认知涌现能力,并且能与具身智能系统深度适配,而数据决定一切。

我们理解这次的发言是和 OTA 8.1 更新的体验,给出的实际效果的提升。当模型与系统深度适配,会发生什么?明显体验提升是 VLA 技术路线的实践结果。

红灯刹停更稳了是把把视觉感知从 1K 升级到 2K,把识别距离从 100 米提升到 200 米,背后是车能更早看到红灯、模型能更早规划减速,刹停动作变成“提前、顺滑、自然”,结果是告别过去那种“紧一下”的迟滞感,这正体现“整体系统能力”:感知更强 、模型更准、行为更稳。并没有在模型层面变更大,而是模型与系统更适配。

岔路判断更准了,理想用 约 600 万 Clips 优质驾驶数据重新训练了 VLA 模型。效果就是主辅路切换更自然、不该变道不再乱试探和岔路选择不再犹豫拖沓,这是百万车辆构建的数据闭环 加上世界模型生成数据补全难样本,世界模型而是为 VLA 生成“考题”,在这里世界模型更适合做考场,而不是考生。

为什么不是 GPT-style 世界模型?为什么不是端到端?

主要是因为物理世界太复杂,世界模型难以直接做“行为决策”,而VLA 更擅长“理解场景 选择动作”并能与实际车辆的感知、规划、执行器深度协同。

行业大模型普遍追求“抽象世界理解”,辅助驾驶需要的是“精准的物理行为”,VLA 恰好直接连接视觉、语言、动作,是操作世界的模型。

理想在这里的答案就是“VLA 是实现 L4 的最短路径”。

问题二:为什么具身智能将决定自动驾驶的未来?

第二段,我们理解为具身智能最终比拼的是整体系统能力,未来的竞争是“谁能把车变成机器人”。

具身智能的“四件套”:感知(眼睛)、模型(大脑)、芯片(心脏)和本体(身体)。

这套框架在技术上有非常实质的含义:感知弱,模型再强也盲;模型强,但执行器慢,体验依然差;芯片算力跟不上,所有能力都是纸面能力;本体(线控底盘)不稳定,安全性就无法保证。

只要有一个环节依赖供应商,就无法构建真正的汽车机器人。自动驾驶不是拼模型,是拼系统迭代速度,而数据是决定迭代速度的根基,车辆每天贡献海量驾驶数据,使得 VLA 模型可以几乎每周更新一次世界认知。

理想认为VLA 是通往“下一代机器人系统”的最通用架构。郎咸朋敢说“VLA 是最好的自动驾驶模型”的底气是因为它对未来最通用。

VLA 在自动驾驶中已经表现出“物理认知涌现”;

VLA 的视觉—语言—动作序列,与机器人控制结构高度一致;

VLA 可以通用于汽车机器人、AI 眼镜、未来的家庭机器人,世界模型生成的数据进一步训练 VLA,让它获得更通用的物理理解。

从理想看来,世界模型不是自动驾驶的“终极解法”,世界模型 + 端到端路线是一条路线,VLA + 具身智能系统是一条路线,这两条路线不同,将在未来 3–5 年拉开巨大差距。

小结

现在讨论的问题是汽车机器人应该具备什么能力、模型怎么与系统适配,自动驾驶路线之争,已经升级为具身智能路线之争。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpsW2WDATp94GG535HsDCMsw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券