如果你到了一个从来都没有去过的停车场,要怎样找到想去的楼栋和出口?此时,停车场里各式各样的标识和文字,就是给你指路的依靠。
可如果是智能辅助驾驶掌舵,它会怎么办?在没有任何形式的地图、导航或记忆路线的情况下,它也必须具备像人一样思考的能力,听懂人的指令,看懂停车场里的标识和文字,理解环境,并且把这些思考转化为执行动作。
「蔚来世界模型 NWM」在行业中首个量产的「停车场自主寻路」功能,也运用了这样的技术逻辑。
了解行业的朋友可能会有疑问:这是不是「视觉语言动作 VLA」模型呢?
那么,今天就和大家聊一聊,「蔚来世界模型 NWM」和「视觉语言动作 VLA」之间的关系与区别。
「视觉语言动作 VLA」
是「蔚来世界模型 NWM」的子集
「视觉语言动作 VLA」最早来自于机器人行业,核心是在一个网络里输入语言、图像,输出执行动作,从而让开放域的语言和图像可以指导行动,天然带有大模型与物理世界交互的基因。
而「蔚来世界模型 NWM」,是一个多元自回归生成模型,具备空间认知和时间认知能力,能进行长时序推演与决策。「蔚来世界模型 NWM」同样是多模态输入输出,输入的多模态数据包含图像、语言,输出的多模态数据则包含图像和行动。
也就是说,当「蔚来世界模型 NWM」打开语言输入时,它包含了「视觉语言动作 VLA」的所有特征。但同时,「蔚来世界模型 NWM」对于空间理解的能力,以及长时序的建模能力会更强。
在「蔚来世界模型 NWM」首个版本中,「停车场自主寻路」功能就是「蔚来世界模型 NWM」认知、理解与推理能力最直接的体现。
用户可以通过自然语言对NOMI表达需求,如“带我离开停车场”、“去找一下18号楼”等,此时智能辅助驾驶系统就可以通过摄像头理解和构建周围环境,并将用户的需求和周围的环境信息密切结合,推理出应该执行的操作。
例如,当车辆在行驶过程中看到「15-20号楼」的标牌时,它就能理解18号楼应当向右转;在上一个路口看到「出口直行」字样,当前路口却没有标牌,车辆也能推理出出口应该继续直行。
「停车场自主寻路」功能,是自由交互、无图环境构建、环境理解能力的结合体,也是「蔚来世界模型 NWM」在实现任意点到点的道路上迈出的第一步。「蔚来世界模型 NWM」首个版本,释放了在地下停车场通过自然语言交互自主寻找停车场出口与指定楼栋的功能。当基础能力完成部署后,在后续迭代进化中,它能做的事还会更多。
停车场自主寻路
≠语音控制智能辅助驾驶
讲到这里,大家可能又有疑问:「停车场自主寻路」是否就是用语音控制智能辅助驾驶呢?其实,两者还是有区别的。
现在常见的智能辅助驾驶系统功能,有固定且有限的接口。语音输入只是去调用这些有限的接口,比如导航数据、功能的启动、速度设定、泊车位置选择等等。这种交互,就像在操作一个有固定按键的计算器。
而「蔚来世界模型 NWM」的「停车场自主寻路」功能,已事实上超出了以上这些固定接口需求,从操作固定按键的计算器变成了可以自然、自由交互的「机器人司机」。这意味着,整个模型的参数量会大幅增加,既要有对复杂世界的认知与理解能力,还要有高效实时推理的推理能力。这些都对车端的硬件提出了更高的要求。
三年前,蔚来就在「Banyan 榕」车型上部署了1,016 TOPS的AI算力储备。如今,超过40万「Banyan 榕」车型用户可以升级更加先进的技术架构,这正是算力超前储备的价值所在。
而在「Cedar 雪松」车型上所搭载的「神玑 NX9031」芯片,不仅AI算力打平最新行业旗舰,还具备行业领先的超高内存带宽,是为「蔚来世界模型 NWM」量身定制的原生设计。
以上这些,都为蔚来车型长期保持架构和算法领先,为用户提供长期领先的体验,打下了坚实的基础。
「蔚来世界模型 NWM」首个版本,将从5月30日起分批次全量推送至「Banyan 榕」车型,6月底全量推送至「Cedar 雪松」车型。
领取专属 10元无门槛券
私享最新 技术干货