6月11日,在小鹏G7上市发布会的同一天,小鹏汽车世界基座模型负责人刘先明博士在美国参加了AI顶会——CVPR 2025,并于CVPR WAD(Workshop on Autonomous Driving)上发表了演讲。
他围绕小鹏布局在云端的自动驾驶基座模型,披露了其团队在模型预训练、强化学习、模型车端部署、AI和数据基础设施搭建等方面的前沿探索和实践经验。
此时,距离来自中国的「端到端自动驾驶」相关论文获得CVPR Best paper已有两年,智驾技术框架已从Rule-based全面进化至Data-based,而后又发展出VLM、VLA、强化学习、,以及针对基础模型的多种算法。
相比于2023年获得殊荣的《以路径规划为导向的自动驾驶》,再看小鹏的演讲标题《通过大规模基础模型实现自动驾驶的规模化》,足以体现出自动驾驶的发展之快,以及小鹏将前沿技术量产落地的执行力。
尽管在大洋彼岸的小鹏G7发布会上,信息已经非常丰富,但只有通过此次演讲的内容,才会意识到G7不只是何小鹏所说的「L3级算力的AI汽车」这么简单。
Scaling Law在VLA上持续生效
在G7的发布会上,何小鹏指出了「L3级算力平台」的两大标准:1、有效算力大于2000TOPS;2、搭载本地部署的「VLA+VLM模型」。
这两大标准,相当于走向高阶智驾的一种硬性门槛,也意味着一辆车能拥有更高的能力上限。
但是,在这样的车端门槛背后,也需要不停探索上限的云端推手。小鹏的关键「推手」之一,就是刘先明团队研发的自动驾驶基座模型——「物理世界大模型」。
据刘先明介绍,小鹏的下一代基座模型是以大语言模型为骨干网络,并使用海量优质驾驶数据训练的VLA大模型。
除了具备视觉理解能力、链式思考能力(CoT)和动作生成能力,它还具备后训练阶段的强化学习。
其中,CoT逻辑推理高度类人——先看清道路交通环境,关注到对自车行为有影响的关键目标物,随后分析交通信号灯的指示,并作出推理,生成下一步的轨迹。
为了达到理想的推理效果,小鹏自动驾驶基座模型的训练数据包括了摄像头信息、导航信息等关于物理世界的多模态数据。
“小鹏在云上训练了10亿、30亿、70亿、720亿等多个参数的模型,并持续向模型投喂更大规模的训练数据,目前基座模型累计吃下了2000多万条视频片段(每条时长30秒)。”
刘先明表示,在此过程中,研发团队明确验证了Scaling Law在自动驾驶VLA模型上持续生效。
值得注意的是,小鹏G7首发的VLA-OL模型,正式通过蒸馏技术,将云端基模的能力部署到车端,同时还实现了全本地端运行,无需依赖网络连接,从而摆脱了网络和地域限制,确保了无延迟的复杂判断执行。
RL:让基模持续突破的神器
大家能留意到了,小鹏G7搭载的VLA多了个后缀——OL(Online Reinforcement Learning)。这也就意味着,自G7开始,小鹏的「持续强化学习」道路正式铺开。而且何小鹏表示,这项能力在下一代会逐步进化为自主强化学习。
“云端基座模型好比一个人天生的智商,强化学习则好比能力激化器。”刘先明表示,云端基座模型+强化学习的组合,是让模型性能突破天际的最好方法。
这里还必须要提及如今业界最热门的一种「评分方法」——强化学习奖励模型(Reward Model)。
据刘先明介绍,小鹏的基座模型在完成预训练、监督精调(SFT)之后,就会进入强化训练阶段。而强化学习的奖励模型主要从三个方面激发基模潜能:安全、效率、合规,这也是人类驾驶行为中的几个核心原则。
据刘先明介绍,目前,小鹏就已经在后装算力的车端上用小尺寸的基模实现了控车,在没有任何规则代码托底的情况下,新的「AI大脑」展现出令人惊喜的基础驾车技能,能够丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等。
“我们的基座模型不是静态的,它在持续学习、循环进化(Continued Online Learning)。”
模型的迭代过程分成内、外两个循环:内循环是指包含预训练、后训练(包括监督精调SFT和强化学习RL)和蒸馏部署的模型训练过程;外循环,是指模型在车端部署之后,持续获取新的驾驶数据和用户反馈,数据回流云端,继续用于云端基模的训练。”
将这样已经形成训练闭环、并且能持续强化学习的云端基模「赋能」到车端,再加上高达2200 TOPS的天花板级算力,这意味着G7的车端智能辅助驾驶能力,将实现根本性的进阶——据官方介绍,G7的智驾辅助能力相比行业主流水平提高了10至100倍。
或许,也这可以解释为何G7还是毅然选择了纯视觉路线,因为这在某些程度上,足以证明一款AI汽车对于其软硬件能力的自信。
不过,这一切还只是刚刚开始。小鹏汽车自动驾驶团队还在开发世界模型,未来会将其用作一种实时建模和反馈系统,基于动作信号模拟出真实环境状态,渲染场景,并生成场景内其他智能体和交通参与者的响应,从而构建一个闭环的反馈网络,帮助基座模型进行强化学习等训练。
CoT的底气:数据资本
“强化学习非常讲究数据采样,也非常依赖来自真实世界的数据。”
尽管目前整个具身智能行业都在强调数据的来之不易,以及仿真/合成数据的关键作用。但真值数据的意义显然不容忽视,高效的世界模型+真实数据,就像是「如虎添翼」。
刘先明表示,小鹏现有几十万辆辅助驾驶车辆跑在全国各地,包括也将规模化上路的G7,都会源源不断地创造着新的训练数据,包括大量的长尾场景数据。
“比如说,不久前我们收到福州的一位用户发来的视频:他开车来到一个红绿灯路口,发现马路对面的主干道上有两棵大树,一时看不明白车道在哪,仔细观察才知道需要从两棵树之间的缝隙穿越而过。”
刘先明称,这就属于典型的CoT场景,需要模型做个实时推理:“我在哪?发生了什么?我要怎么走?第一原则是安全,也就是判断车道线宽度,随即待绿灯亮了之后,缓行通过。
硬核基建:云端模型工厂
为了研发下一代基模,小鹏的AI基础设施堪称「豪横」——它建成了国内汽车行业首个万卡智算集群,用以支持基座模型的预训练、后训练、模型蒸馏、车端模型训练等任务,小鹏将这套从云到端的生产流程称为「云端模型工厂」。
目前,该「工厂」拥有10 EFLOPS的算力,集群运行效率常年保持在90%以上,全链路迭代周期可达平均5天一次。
CVPR大会现场,刘先明首次展示了两个核心数据:
1.小鹏云上基模训练过程中,处理了超过40万小时的视频数据;
2、流式多处理器的利用率(streaming multiprocessor utilization)达到85%。
前者代表数据处理能力,后者所说的流式多处理器是GPU 的核心计算单元,其高并行计算能力对提升系统性能至关重要,也会对延时率产生直接影响。而85%的利用率堪称行业天花板。
另外,他从云端模型训练和车端模型部署两个层面,拆解了小鹏自动驾驶团队提升模型训练效率的方法:
在模型训练层面,研发团队在CPU、GPU、容错性方面做了联合优化:“VLM、VLA等多模态模型不同于LLM,训练过程不只受限于计算瓶颈,还受到数据加载瓶颈、通信瓶颈的限制,大规模并行训练首先要解决这些问题。”
针对数据加载问题,研发团队对CPU的利用作了如下优化:
1.启用额外的CPU 节点:分担数据加载任务,缓解GPU 节点数据加载压力,保障GPU 计算资源能更专注于核心计算任务;
2.对PyTorch 进行定制化改造:减少框架内部进程间通信的冗余环节,降低通信开销,使数据传输更高效,减少性能损耗;
3.激进的数据物化策略:更彻底地预处理数据,减少CPU 在数据加载阶段的实时处理负担,提升数据加载速度;
4、优化打乱(shuffling)模式:可增加模型训练的随机性,防止过拟合,在速度与随机性之间取得平衡。
另外,针对GPU计算资源的利用,研发团队首先通过FSDP 2 实现模型分片使用FP8 混合精度训练,并利用Flash Attention 3 加快计算速度;同时也基于自定义Triton 内核,充分发挥GPU 性能,提高计算效率 。
模型的车端部署层面,自研图灵芯片成为了小鹏「赢在起跑线」的优势:它专为大模型定制,模型、编译器、芯片团队针对下一代模型开展了充分的联合研发工作,「榨干」车端算力。
正如何小鹏所说的,自研图灵芯片的核心不是为了降本,而是要解决通用芯片不难以发挥100%算力的短板。而图灵芯片从一开始就是为AI大模型所定制的,因此能做到「一颗顶主流的三颗芯片」。
而搭载了3颗图灵芯片的G7,比目前行业80-700TOPS的主流算力区间高出数倍,而且还是专门为AI大模型而生的原生芯片。所以,「算力充足」只是它的基础部分,它的性能、先进架构设计,以及走向高阶自动驾驶的「野心」,即将透过G7逐步展现出来。
除此之外,刘先明还介绍称,小鹏还创新设计了针对车端VLA模型的token 压缩方法,可在不影响上下文长度的情况下,将token处理量压缩70%(从5000压缩至1500),降低计算延时。
综合来看,在如此丰富、高效的云端基座大模型的加持下,其落地到终端的能力绝对值得行业关注。在此背景下诞生的小鹏G7,不仅算力爆表,还堪称搭载前沿AI技术的「集大成者」——端侧大脑的自我思考能力、持续强化学习的能力,以及定制AI芯片的高效发挥,注定G7可以实现高度类人的驾驶思维,以及极低延时的复杂判断执行。
如此看了,G7配得上Ultra的名字,它不仅代表了质的飞跃,更预示着未来的迭代。
领取专属 10元无门槛券
私享最新 技术干货