首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

智輅│如何将大语言模型塞进自动驾驶?看DriveGPT怎么做

“像毫末这样的创业型企业,唯有不断的技术创新,才能继续存活下来。”毫末智行CEO顾维灏如是说道。2019年11月29日,命运的齿轮开始转动,毫末人的命运由此聚在一起,这群想要亲手创造自动驾驶未来的人,历经4年发展,都取得了哪些技术成果?

实际上,毫末打下的每一场技术、产品和生态战役都体现在HAOMO AI DAY上,每次HAOMO AI DAY的举办,毫末都毫无保留地将自己的最前沿技术探索和实践进展情况分享给业内:

● 在第1届HAOMO AI DAY上,毫末提出自动驾驶发展三定律,明确渐进式技术产品发展路线;

● 在第2届HAOMO AI DAY上,毫末首次对外公布视觉Transformer技术落地自动驾驶进展;

● 在第4届HAOMO AI DAY上,毫末率先发布行业首个自动驾驶数据智能体系MANA雪湖;

● 在第5届HAOMO AI DAY上,毫末发布了自主研发的基于Transformer架构的BEV感知技术思路,成为国内首家提出以不依赖高精地图的“重感知”方式实现城市NOH的自动驾驶AI公司;

● 在第6届HAOMO AI DAY上,毫末提出自动驾驶3.0时代,大模型、大数据和大算力将成为自动驾驶技术发展的核心特征;

● 在第7届HAOMO AI DAY上,毫末建成了行业算力最大的自动驾驶智算中心——MANA OASIS雪湖·绿洲,同时发布五大自动驾驶感知和认知领域的大模型,并首次将GPT技术思路引入到自动驾驶认知决策领域;

● 在第8届HAOMO AI DAY上,毫末正式推出行业首个自动驾驶生成式大模型——DriveGPT雪湖·海若,率先实现了对自动驾驶认知决策模型的持续优化,并将多个感知大模型的训练纳入到DriveGPT统一的架构中,目标是实现端到端自动驾驶;

● 在第9届HAOMO AI DAY上,毫末通过统一的DriveGPT大模型架构来整合通用感知和通用认知能力,让通用感知实现万物识别,让通用认知具备世界知识,让自动驾驶再次实现技术范式跃迁。

以上就是毫末在历届HAOMO AI DAY上发布的重大技术成果,代表了其一贯的技术思考。事实上,已成功举办过9届的HAOMO AI DAY,早已成为中国自动驾驶行业备受瞩目的技术交流平台,甚至被业内评价为中国自动驾驶技术的旗帜。

还记得在第8届HAOMO AI DAY上,毫末正式推出行业首个自动驾驶生成式大模型——DriveGPT雪湖·海若时,很多人的第一反应觉得在蹭ChatGPT的热度,但其实深入了解后,就会理解AI大模型在自动驾驶多模态感知数据训练和自动驾驶场景的认知决策上有着巨大的潜力。

一直以来,毫末都十分关注源自大语言模型的大模型路线带给自动驾驶的可能性,并想要探索出一种可以实现端到端的自动驾驶新范式。所以在第9届HAOMO AI DAY上,毫末继续分享了基于这方面的思考与实践,并强调在自动驾驶3.0时代,大模型将重塑汽车智能化技术路线。

大模型将重塑汽车智能化技术路线

截至今年10月,毫末数据智能体系MANA的学习时长已超过103万小时,乘用车用户辅助驾驶行驶里程接近9000万公里,搭载毫末高阶智驾的车型也已落地欧盟。伴随产品落地规模的不断增长,毫末智驾数据迎来爆发式增长,并将于今年正式迈入自动驾驶3.0时代所标定的1亿公里的智驾里程规模,届时,毫末的数据闭环能力与产品迭代能力将形成正向的加速闭环。

在产品迭代能力上,毫末始终以数据驱动的方式推动自动驾驶产品升级,包括感知、认知和智算中心等建设,其智能辅助驾驶产品HPilot已实现多次OTA升级,用户月度活跃率88%。其中,搭载毫末HPilot的一位摩卡用户,单辆最长累计智驾里程是82073公里,智驾功能使用率达到76.2%。

“这说明毫末HPilot已从用户尝鲜的时髦功能变成日常出行习以为常的实用功能。”顾维灏更加笃定了对于自动驾驶技术发展阶段的判断:大数据、大模型和大算力,将成为自动驾驶公司迈入3.0时代的关键标志。

比如,以数据驱动实现自动驾驶的技术路线已成为行业共识;从海量大规模自动驾驶行驶里程中提取高质量数据,来完成大模型训练和自动驾驶算法的优化也已成为主流方法;而以AI大算力为特点的自动驾驶智算中心,则成为越来越多主机厂和自动驾驶公司的重点投入方向。

此外,顾维灏还将自动驾驶2.0时代与3.0时代的开发模式进行了对比。在小数据和小模型的2.0时代,主要以Case任务驱动为开发模式,普遍存在2个问题:一是只有当问题暴露并确认后才能着手解决问题,滞后性严重;二是这种面向特定问题的小模型,泛化性非常差,无法面对开放世界的无穷问题。

而在大数据和大模型的3.0时代,主要以数据驱动为开发模式。感知阶段可通过海量的数据训练感知基础模型,学习并认识客观世界的各种物体;认知阶段可通过海量司机的驾驶行为数据来学习驾驶常识,再通过数据驱动的方式不断迭代并提升整个系统能力水平。

通过上述对比,顾维灏确信在大数据和大模型开发模式下,自动驾驶技术框架将发生颠覆性变革,并表示车端未来的演进路线,一方面是逐步全链路模型化,另一方面是逐步大模型化。

DriveGPT让自动驾驶具有世界知识

在DriveGPT推出的200多天里,毫末已训练超100亿帧互联网图片数据集、480万包含人驾行为的自动驾驶4D Clips以及8700万公里的训练里程。如此巨大的数据规模,是人类穷尽一生都难以完成的。

除不断扩大数据规模外,DriveGPT还在不断增强识别万物的能力以及对三维空间和时序的全面建模能力。“未来的自动驾驶系统一定跟驾驶员一样,不但具备对三维空间的精确感知测量能力,还应像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,并基于这些人类社会经验来做出更好的驾驶策略,从而真正实现完全的无人驾驶。”顾维灏补充道。

首先在视觉大模型上,毫末最早将Tansformer引入自动驾驶领域,过去两年,CV Backbone也从CNN模型全面切换到ViT,并于2023年全面升级至性能更强大的Swin Transformer。

在训练范式上,毫末也曾走过了一段飞跃式的发展道路。早期,基于人工标注的单帧图片,用有监督的方式来训练CNN类模型;后又结合4D自动标注技术,可以大规模和自动化地标注4D clips,训练方式也升级到基于自动标注的4D clips的有监督训练。然而,这种有监督的训练方式,不管数据规模多大,模型的天花板始终受限于标注的效果和品类,而无法做到万物识别。

于是,毫末率先于业界升级到了基于大规模数据的自监督学习训练范式,Transformer大模型可轻松吃下上百亿张图片,泛化能力自然就强大了。如今,毫末的模型则是采用视频生成的方式来训练的,使CV Backbone能够学到三维的几何结构、图片纹理和时序信息等物理世界信息,相当于把整个世界装到神经网络里。

其次,在视觉大模型基础上,毫末又构建了多模态大模型,用以实现感知万物识别的能力。2023年,毫末引入多模态教师来提升模型效果,分为3个关键模块:4D编码器、多模态教师和Nerf渲染器。

再者,如何构建认知大模型,先要解决2个问题:一是如何将感知大模型与认知大模型进行连接,实现端到端训练?二是除感知模型看到的物理世界外,自动驾驶认知决策阶段还需要引入什么信息?对于第1个问题,毫末沿用过去将驾驶环境解码为BEV图来对接认知决策;对于第2个问题,毫末引入了外部的大语言模型。

自动驾驶为什么需要世界知识?“自动驾驶想要开得好并像人一样聪明地驾驶,就必须掌握大量的世界知识,需要从大语言模型中学习到这些常识,为了把感知大模型和认知大模型对接,进行端到端训练,毫末构建了DriveGPT,利用通用感知实现万物识别,利用通用认知具备世界知识。”顾维灏回答道。

七大实践打开端到端自动驾驶魔盒

“驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发七大实践,彻底让毫末对自动驾驶的开发进入到一个与之前完全不同的模式中。”顾维灏相信这种全新的开发模式,将大大加速汽车智能化的进化进程。

第1个实践,如何更高效地筛选数据。传统方式是采用标签加人工的方式,从高达百亿的数据中筛选出几万个有效数据,成本又高,效率又低。为此,毫末构建了特有的自动驾驶场景多模态数据集,即可实现秒级搜索,开发工程师只需用自然语言的方式,就可表达对场景图片的需求,并在百亿级别的向量数据库中找到文本所对应的驾驶场景数据。

第2个实践,如何更高效地标注数据。此前,毫末曾展示了跟自动驾驶密切相关的交通要素的自动标注能力,但仅能识别少数交通元素(闭集场景标注),这对自动驾驶来说还远远不够。为此,毫末又将闭集自动标注升级为开集场景中进行Zero-Shot的自动标注,即多模态模型蒸馏、大语言模型辅助和视觉语言特征交互3个部分。这是标注能力上一次重要飞跃,意味着从此可以标注任意物体了,不仅能实现针对新品类的Zero-Shot快速标注,而且精度更高,预标注准召超80%。

第3个实践,无中生有的可控生成技术。即使手中数据再多,也会遇到大量数据不足的情况,为此,毫末基于大模型构建了AIGC能力来生成数据。但这种图像的生成存在2个问题:一是没有标注,很难直接用于下游监督训练;二是驾驶数据场景复杂,很难用文字进行细节描述。为此,毫末又在文本描述之上,引入了适用于驾驶场景的额外引导。

第4个实践,瞬息万变的场景迁移技术。基于毫末的感知大模型,以真实的采集图像作为引导,通过文本语言来描述希望生成的目标场景,既可实现清晨、正午、黄昏和夜晚等多时间段光照变换,也可将晴天转换为雨天、雪天和雾天等极端天气。通过这种方式,极大提高了模型在极端场景下的泛化性。

第5个实践,让AI解释自己的行为。毫末此前做过类似的尝试,即通过毫末场景库和结合人工标注的方式对驾驶行为做出解释,但这种方式仅能处理少量的典型场景,面对开放的世界远远不够。于是,毫末再次尝试引入外部的大语言模型来解释复杂的驾驶行为,未来还将构建自动驾驶描述数据对其进行微调,从而对驾驶行为给出更详细的解释。

第6个实践,如何准确预测未来。要想让自动驾驶像人类一样具备社会常识和懂得人类社会的潜规则,光靠驾驶行为数据很难学习到这种复杂的人类社会常识。于是,毫末引入了大语言模型。顾维灏认为,自动驾驶必须具备常识,才能理解人类社会的各种明规则与潜规则,才能像老司机一样,与各类障碍物进行更好地交互,而要想让自动驾驶具备常识,就必须引入大语言模型。

第7个实践,大模型如何在有限的车端算力上运行起来。短期内直接把大模型部署在车端芯片上显然是比较困难的,毫末对此探索的是蒸馏方式,这种方式可以让车端的感知效果提升5个百分点。

坚持走重感知轻地图技术路线

上述七大实践都会落实在毫末产品上,对此,顾维灏还给出了DriveGPT赋能车端的三大测试成果。

第1个是毫末纯视觉自动泊车的测试成果。利用视觉感知模型,使用鱼眼相机可以识别墙、柱子、车辆等各类边界轮廓,形成360°的全视野动态感知,并能做到15m范围内30cm测量精度,2m范围内10cm测量精度,进一步降低智驾方案成本。

第2个是毫末对交通场景全要素识别的测试成果。基于DriveGPT的万物识别能力,可有效帮助毫末重感知的车端感知模型实现效果的提升,助力城市NOH加速进城。

第3个是毫末城市NOH对小目标障碍物检测的测试成果。毫末城市NOH在城市道路场景中,能在时速70公里50m距离外,检测到35cm高度的小目标障碍物,并能做到100%的自主绕障或刹停。

“毫末率先走出了一条重感知轻地图的技术路线,虽然比直接走高精地图的技术路线实现起来会遇到更多难题,但重感知路线真正实现后,会比重地图路线有着更好的泛化优势和更快的开城能力。”据顾维灏透露,搭载毫末HP550具备城市NOH功能的魏牌蓝山将于明年一季度正式上市。

与此同时,DriveGPT的云端能力也可对外开放,主要通过使用API、模型的专项优化和服务的私有化部署与其合作。截至目前,毫末已服务17家生态伙伴,进入模型服务商业化新阶段。

今年5月,毫末成功入选“北京市通用人工智能产业创新伙伴计划”,成为首批模型伙伴观察员;同年6月,DriveGPT入选北京市首批人工智能10个行业大模型应用案。“抓住AI大模型技术新机遇,共同探索自动驾驶技术新范式。”顾维灏欢迎更多合作伙伴加入DriveGPT生态。

从保定到北京,再到上海、深圳和德国慕尼黑,成立近4年来,毫末始终引领中国自动驾驶技术风向标,并率先于行业布局大模型、大数据和大算力技术发展方向。2023年11月29日,毫末即将迎来4周岁生日,在机器人擅长的地方替代人力,在人力擅长的地方人机交互,是毫末决胜自动驾驶3.0时代的初心。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwQsQ3NmUgKTP9p5_TpJ9Vyw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券