首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自动驾驶技术哪家强?

我觉得今年汽车行业,最具突破性的进展就是:国内自动驾驶“大模型”落地,陆续出落地的产品了。

今年8月26日,马斯克亲自上线开启了一场FSD Beta V12试驾直播,引百万人现场围观。此次展示的FSD Beta V12是有史以来第一个端到端AI自动驾驶系统(Full AI End-to-End),是特斯拉最重要的一次升级。

直播45分钟,FSD Beta V12系统在行驶全程进展非常顺利,能够轻松绕过障碍物,识别道路各种标志。45分钟内仅人工干预一次 。

马斯克激动地表示:

V12系统从头到尾都是通过AI实现。我们没有编程,没有程序员写一行代码来识别道路、行人等,全部交给了神经网络。

华为9月12日,发布的M7搭载的是HUAWEI ADS2.0 高阶智能驾驶系统,拥有27个感知硬件:

由1个远距高精度激光雷达+3个毫米波雷达+2颗800万像素高感知前视摄像头+9颗侧视、环视、后视摄像头+12个超声波雷达所组成,配合高性能计算平台 + 华为拟人化算法加持,成就“全国都能开”的高阶智驾。

小鹏G9的发布会上,小鹏创始人何小鹏展示了G9自动驾驶领域的实力。根据展示的数据,G9在高速场景下可以实现1000公里接管一次,在城区场景下可以做到150公里接管一次。这一数据表明,小鹏自动驾驶技术已经取得了令人瞩目的进展。

可以看到,现如今的自动驾驶已经走到城市NOA智驾阶段,距离L3越来越近了。对于现在的成绩,最重要的就是行业普遍应用了“大模型”的自动驾驶算法。

也就是今年最突破性的进展就是大模型的规模落地。

什么是大模型?为了说明这个问题,我们先看一个简单的方程:y=f(x)

这里的x有几个,我们就说有几个参数。那么什么是大模型呢?就是这个x有几十亿甚至上百亿个。是的,没错,就是:百亿个!

大模型:泛指具有数十亿甚至上百亿“参数”的深度学习模型。

自动驾驶不同于传统的编程方法,必须使用“大模型”,之前叫做“神经网络”。

一、旧的神经网络下的自动驾驶

·CNN模型:2011-2016年,自动驾驶汽车最初大规模采用的就是CNN模型,也叫:卷积神经网络。CNN极大提升了自动驾驶车辆的环境感知能力

·RNN模型:2016-2018,RNN也叫循环神经网络。相较于CNN,RNN更适合处理时间序列数据。它的循环结构可以建模时间上的动态变化,这对处理自动驾驶中的轨迹预测、行为分析等时序任务非常有用。例如在目标跟踪、多智能体互动建模等领域,RNN可以预测车辆未来的运动轨迹,为决策和规划提供支持。

·GAN模型:2016-2018,与RNN同步采用的GAN模型,也叫做“生成对抗网络”。它的生成能力缓解自动驾驶系统训练数据不足的问题。GAN可以学习复杂分布,生成高质量的合成数据,颗用于缓解自动驾驶系统训练数据不足的问题。

二、新的“大模型”下的自动驾驶

·BEV模型:2018-2020,BEV也叫做“鸟瞰模型”,核心思想是将车辆周围的三维环境数据(如来自激光雷达和摄像头的点云、图像等数据)投影到俯视平面上生成二维的鸟瞰图。这种从3D降维到2D的的方式,获得了一个巨大的好处:比原始传感器数据更加直观和信息丰富的环境表达。可以更清晰地观察道路、车辆、行人等元素和位置关系,增强自动驾驶对复杂环境的感知能力。

·Transformer模型:2021至今,Transformer模型最大的创新在于提出了“注意力机制”,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统 RNN和CNN在处理长序列数据时的局限。Transformer解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,奠定了大模型技术实现的计算基础。 也成为现在大家竞相使用的模型之一。

·占用模型:2022-至今,BEV+Transformer的不足:鸟瞰图为2D图像,会缺失一些空间高度信息,无法真实反映物体在3D空间的实际占用体积, 故而在BEV中更关心静止物体(如路沿、车道线等),而空间目标的识别(如物体3D结构)难以识别。

特斯拉在2023年AI Day公开了occupancy network(占用网络)模型,基于学习进行三维重建,意图为更精准地还原自动驾 驶汽车行驶周围3D环境,可视作BEV视图的升华迭代。

占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界,可以在没有激光雷达提供点云数据的情况下对3D环境 进行重建,得到更加准确的三维场景信息。

Transformer+BEV+占用网络

一方面,BEV可以高效表达自动驾驶系统周围的丰富空间信息;另一方面,Transformer在处理序列数据和复杂上下文关系方面展现了独特优势。两者结合可以充分利用BEV提供的环境空间信息,以及 Transformer在多源异构数据建模方面的能力,实现更精确的环境感知、更长远的运动规划和更全局化的决策。 两者组合可实现互补,增强对复杂场景的理解表达。

2020年以来, Transformer+BEV+占用网络结合正在成为自动驾驶领域的重要共识,推动自动驾驶技术进入崭新发展阶段。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OVHwZk3mAqqzbgo42gmWzQ-w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券