首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

轻舟智航CTO侯聪:自动驾驶应积极拥抱大模型

自去年5月高调进军高阶辅助驾驶领域后,轻舟智航(以下简称‘轻舟’)进一步加快了方案落地的脚步。去年12月,该公司表示将基于地平线征程5芯片开发「轻舟乘风高阶辅助驾驶解决方案」, 基于此打造高速+城区NOA功能。

到了今年9月,轻舟宣布获得数家车企量产定点合作,「轻舟乘风」将在明年量产上车。这也意味着,轻舟成为地平线生态伙伴中,首家基于地平线征程5平台实现BEV方案量产的智驾方案供应商。

近日,首席智行官与轻舟智航联合创始人、CTO侯聪进行了对话,讨论了对行业内热门技术的看法,以及快速迭代的路径。

「降本」必须结合所有环节

即便轻舟宣布已实现了多家车企定点,但此时谈及「交付量」的话题还为时尚早。不过侯聪表示,其实与交付量直接挂钩的,并不是方案问题,而是车辆成本问题。

他介绍道,出于对性价比的考虑,目前选择「乘风Pro」方案的车企比较普遍,其装机率比Max版本更高——「乘风Pro」提供的是高速NOA功能。

「轻舟作为一家算法公司,要让算法方案兼容不同车型的配置,同时也要考虑整车成本占比,要让算法方案在规定成本内发挥最大价值。」

围绕这一中心思想,轻舟智航拥有了OmniNet、时空联合规划算法,离线点云大模型等等高效技术路径。

其中,轻舟自研的「时空联合规划算法」能够在空间和时间构成的三维空间中,求解最优轨迹,以应对更多复杂场景。但它也无疑面临更高的技术门槛、参数需求和计算量。

「要让一个系统跑得更快,首先要把业务做得更加有效。」侯聪介绍称,只有从底层架构和业务设计上严控计算量需求,精简冗余的、重复的东西,才能让计算更有效地为业务服务。

而在硬件层面,同样必须将硬件特性运用到极致:「比如如何利用多线程系统、如何在指定级别实现加速,以及CPU和GPU调度……我们需要从各个方面进行优化。」

如何应对BEV的数据挑战?

BEV无疑是时下最受推崇的智能驾驶算法,但它既非新生事物,也不算完全成熟。

「BEV出现已有三年时间了,但它也在一直变化:大家从前是直接在点云上做BEV,现在则是要做视觉的BEV方案。而目前的主要挑战,是如何准备数据。

(感知BEV模型支持行+泊多任务的输出)

侯聪指出,由于人眼对位置和距离的把握不够精准,如果用传统的视觉方法来标注3D物体,必然会面临较高的难度。所以点云真值,以及高效标注体系的帮助,就显得非常重要。

侯聪介绍称,BEV需要亿级别的训练数据,高效的标注和质检系统才会对Corner case 的积累起到作用。

这里就要说到轻舟曾反复提起的「离线点云大模型」——

首先,轻舟自研的PillarNeXt网络能够合并多任务,例如对交通参与者、道路语义、占据网格的识别。然后,基于该网络架构,轻舟构建了离线点云大模型。它拥有更强的泛化能力,有助于数据标注、挖掘和模型训练,还能实现超长时序融合。

(基于离线3D点云大模型的数据挖掘)

侯聪举了个例子:「假如我前方100米处有一个锥筒,我想用离线点云模型把它标出来,肯定是越靠近越准确。同时,在移动过程中,我还会持续观察这个锥筒,相关点云的累积也越来越多。标完之后,再将标注结果给到百米外的图像输入去训练。」

也就是说,离线点云模型能够利用更长时序的信息,以及静态本征的特点,实现车端系统对百米外锥桶的精准识别。「而且,我们99%以上的数据都是自动标注的,所以亿级别的数据量来自于此。」

(城市场景下3D图像自动化标注结果)

「有效监督」的关键作用

在对话过程中,侯聪还提到了BEV的另一种挑战,也就是有效监督:「像一些有坡度的地方,或者遮挡的情况,还有就是传统视觉感知的难点——如特殊天气、特殊光线等,需要加强更多维度的监督提升模型学习效果。」

对此,轻舟采用了多种监督方式,其理念是要将「后处理」的大部分工作集成到模型中来完成,也就是将原本模型难以处理的逻辑,变成一种融合在模型内部的监督机制,让其结果直接可用

「实际上这与端到端也是相关的——监督做得好,端到端才有可能实现。」

为了达到有效的监督目的,也为了更好地应用时序融合方法,轻舟应用了感知大模型OmniNet:这是一个应用于前中融合阶段、同步对齐数据和特征的全任务大模型。

它采用了多传感器方案,将视觉、激光雷达点云和毫米波点云结合起来,通过基于特征的融合方式在BEV下将不同传感器的特征信息融合在一起。

「OmniNet主要进行前中融合,而传统的后融合思想,我们以监督的方式体现在训练当中。」侯聪介绍道。

在他看来,BEV就像是打开了一扇窗:通过这扇窗,自动驾驶得以进行跨传感器、跨模态以及跨时序的融合。要想充分去利用这些融合信息,保持其稳定性,监督的方式会起到关键性的作用。

「代驾模式」并不会更简单

目前车企推出的城市NOA,正在普遍从「全城」模式转向「通勤」、「代驾」等模式。面对这种现象,侯聪表示,这其中要解决的,主要是地图的问题。

「代驾的路线也是城市场景,这并不意味着它变得更简单了。其目的是要通过实际行驶,收集地图信息。」

他介绍称,这其实和轻舟利用「时序穿插融合」来增强效果是同理的——当用户在一条路段驾驶过一次,就能利用其收集到的信息来建一张地图——「如果地图没有问题,之后还能逐步拓展到全国各地,那就能实时更新,不再需要代驾模式了。」

在城市轻地图方案中,轻舟基于Transformer结构开发了感知地图模型QMapNet,可以通过道路几何感知与SD Map融合进行实时地图构建。

「类似复杂的异形口、上下多层重叠的高架桥等场景,目前我们都是可以轻松应对的。」

同时,在道路拓扑结构层面,轻舟应用的Lane Graph Generator也可对输入的路口做视角归一化,定位锚点,并通过Transformer提取场景特征,进而得到路口拓扑关系的预测。

基于一系列道路感知、预测技术,侯聪透露称,轻舟乘风Max和Pro方案目前已经在应用轻地图的方式。

大模型对智驾迭代的意义

近期,Cruise的频繁事故和处理效率引发了连串负面影响,除了牵扯到第三方的事故,其Robotaxi还曾多次停滞在主干道上,造成严重拥堵。

对此,侯聪表示,目前硅谷自动驾驶公司的车一旦卡住,还都需要通过人工远程接入来解决问题。如果想改善耗时耗人的方式,就需要借助大模型对世界的深度理解。

「大模型是一个笼统的概念,它涵盖了多个种类的模型。而对于自动驾驶来说,它又是另外一个概念。」

侯聪称,大模型的参数量往往是十亿、百亿甚至千亿级。但在特定的视觉领域,其任务不像语言那么复杂,往往只需要亿级或者十亿级,就可被称作「大模型」了。

「大模型上车这件事,我认为3-5年后是有可能实现的,但目前还不现实。」于是,轻舟也采用了「用云端带动车端」的方式。

侯聪介绍称,以大模型的强大学习能力,可实现在离线状态(云端)对大量数据进行自动标注、挖掘、知识蒸馏等,这对自动驾驶算法的高效迭代有重要意义,从而能让车端应用的方案得到快速提升。

(利用离线模型的知识蒸馏,使车端感知BEV模型检测精度得到提升)

「其实这种方式已经用了好几年了,如今,通过大模型甚至多个大模型的自动化标注,已经可以媲美人工标注质量,大幅地降低标注成本。」他认为,在大模型能筛选出高价值数据的前提下,自动驾驶的大模型只需要亿级或者十亿量级的参数就足够了。

「不过,现在的自动驾驶仍然很难理解一些场景,例如如何与警车、消防车互动,怎么理解一些事故、施工,或者人的手势。未来通过世界模型,则应当能够处理此类的特殊的场景,因为它对世界有更深的理解。」侯聪说到。

没必要直接追求「极致端到端」

对于自动驾驶技术迭代来说,大模型能带来的另一种可能是:生成在现实中难以采集的数据,但这需要其具备极强的学习能力。

「感知仿真,往往存在『不够真实』的问题,而且它需要基于写出的规则,很难模拟极端、特殊的场景。」

侯聪认为,如果像现在的AIGC一样,通过一些简单的语言描述,就能生成逼真、复杂的场景,成本就会低很多,例如生成特殊天气、有动物的场景。

(基于文字到图像的多模态模型,实现了基于文本的场景挖掘能力)

一旦具备了这样的能力,就能够做到端到端(只输入感知数据,即可获得车辆的驾驶行为)的训练,在控制车辆行为的同时,又可以改变感知的输入,这相当于做了一个极度真实的虚拟环境。

「其实七八年以前就有人尝试『端到端』,但由于一些不可解释的行为,作为一个安全相关的产品,在当时是落不了地的。而目前,大家逐渐积累了很多的经验。」

不过侯聪也认为,如果只是依靠单个「端到端」模型,可能还是会产生一些安全问题,所以应该在安全冗余系统的守护下去尝试。

「没有必要去追求『极致的端到端』,而是可以先通过模块的合并,弥补上『分开训练』时接口上损失的信息,让训练过程中的特征信息,被下游更充分地使用,同时进一步提高数据驱动的作用和价值,这也是端到端方法的宝贵价值。」

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLHRWHl_SmHiHcxWtG6KyllQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券