首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一文速览自动驾驶行业近年来在端到端规划的研究进展

导读

本文转载自深蓝AI;作者为Gongjin Lan, Qi Hao;编译为auto_driver;论文标题:End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023。

这篇文章对2022年-2023年工业界和学术界对自动驾驶端到端规划的最新研究进展作了总体概述,旨在供初学者追踪行业内最新的端到端规划技术,也能作为高级研究者的补充材料。

01

摘要

本文为2022年-2023年工业界和学术界中自动驾驶的端到端规划综述,旨在快速回顾目前自动驾驶工业界和学术界中的方法,包括详细的技术细节。具体而言,本文概述了端到端规划方法,包括Tesla FSD V12、Momenta 2023、地平线机器人 2023、Motional RoboTaxi 2022、Woven Planet(丰田)和英伟达。此外,本文还回顾了研究自动驾驶端到端规划的最新学术研究。本文为读者提供了2022年-2023年最先进的端到端规划的简明结构和快速学习,并且提供了一个有意义的综述。可作为入门材料,供初学者追踪工业界和学术界最先进的自动驾驶端到端规划方法,或可作为高级研究者的补充材料。

02

介绍

世界卫生组织声称,每年约有130万人的生命和2770亿美元的经济成本因道路交通事故而缩减。美国国家高速公路交通安全管理局(NHTSA)发现,这些事故中的94%(±2.2%)的关键原因是人为失误。自动驾驶汽车有可能通过消除人类驾驶员经常犯的错误来大量消除人为失误,从而提高驾驶员的安全性,并且减少经济和拥堵问题。自动驾驶是指车辆在没有人为干预的情况下自主运行的能力。

自动驾驶是一种在没有驾驶员干预的情况下通过识别外部环境来控制车辆到达目的地的技术。而作为控制器跟踪目标的轨迹规划,是其中的一项重要任务。预测道路使用者的行为对于长期规划是一项具有挑战性的任务。大多数轨迹规划算法均是基于其他道路使用者的行为与生成的轨迹无关的假设。预测的轨迹在规划过程中假设是固定的。这推动了交互式轨迹规划,这种规划方式在规划阶段已经考虑了其他道路使用者的反应。当前的挑战是计算负载和对复杂驾驶场景中不确定性的考虑。此外,本文还研究了可以适应道路使用者变化的学习方法,例如强化学习和分类算法。

▲表1|2022年-2023年工业界和学术界中的自动驾驶端到端规划【深蓝AI】编译

03

工业界

本节介绍2022年-2023年当前行业内主流的自动驾驶端到端规划技术,包括特斯拉、Momenta和英伟达。这些端到端规划通常没有公开的详细介绍,本文旨在通过结合现有信息(包括口头报告、视频和新闻)来总结其解决方案。

3.1 Tesla FSD V12 2023

尽管特斯拉尚未公布任何关于其运动规划技术的官方研究文档,但其最新的研究成果已在CVPR 2023端到端自动驾驶研讨会上公布。虽然关于研究完整流程的详细信息有限,但是可以其使用了端到端规划。现有的信息表明,特斯拉在BEV空间中使用端到端占用网络实现规划。基于占用的规划削弱了自动驾驶对高精地图的依赖。此外,它还展现出很多优势,例如更好的多传感器融合和更优的BEV空间规划。同样地,特斯拉的规划方法通常需要大量数据。到目前为止,关于特斯拉端到端规划的详细信息仍然非常有限。

▲图1|特斯拉在BEV空间中的端到端规划架构【深蓝AI】编译

3.2 Momenta 2023

Momenta是一家领先的自动驾驶技术公司。与特斯拉一样,Momenta的规划方法也缺少公开信息,目前还没有关于其运动规划技术的官方研究文档被发表。Momenta在CVPR 2023自动驾驶研讨会上介绍了他们的工作。本文推测其使用基于深度学习的端到端规划来计算轨迹。与特斯拉的占用网络不同,Momenta使用在线高精地图构建来实时生成用于规划的地图。Momenta声称,他们将在2025年前完成端到端规划和完全端到端自动驾驶。图2展示了Momenta的端到端规划架构,这是迄今为止关于他们的最新消息。

▲图2|Momenta在BEV空间中的端到端规划架构【深蓝AI】编译

3.3 地平线机器人 2023

地平线机器人在2023年NuPlan挑战赛中介绍了其规划方法。地平线机器人采用一种新型的空间-时间热图表示用于规划,以及相应的后端求解器以确保安全且舒适的最终规划。实验结果表明,该方法在车辆的前进和安全性之间取得了有效的平衡,生成了安全且舒适的轨迹。在NuPlan挑战赛中,地平线机器人获得了第二高的总分,同时在自车前进和舒适度指标上获得了最佳的分数。图3展示了地平线机器人在BEV空间中的端到端规划架构。

▲图3|地平线机器人在BEV空间中的端到端规划架构【深蓝AI】编译

3.4 Motional L4-RoboTaxi 2022

2022年,Motional L4-RoboTaxi引入了一种基于学习的规划器(DriverIRL),该规划器通过使用逆强化学习(IRL)使自动驾驶汽车在密集的城市交通中行驶。DriverIRL的架构如图4所示。

▲图4|DriverIRL架构【深蓝AI】编译

DriverIRL生成一组不同的轨迹候选,然后使用轻量级且可解释的安全滤波器实现过滤。学习的模型对轨迹进行评分,然后由车辆的低级控制器跟踪。DriverIRL是一种清晰且可解释的方法,其可以与规则相结合,以提高安全性。Motional L4-RoboTaxi通过使用逆强化学习的规划并不是一种完全端到端的方法。尽管DriverIRL并没有广为人知,但是它已经应用于实际自动驾驶汽车上,其具有卓越的性能并且优于智能驾驶员模型。目前,一些公司也对L4-RoboTaxi使用相同的规划方法,因为该方法与基于规则的方法能够很好地结合。

3.5 Woven Planet:Urban Driver

Urban Driver 2022是一种众所周知的规划方法,它为复杂的城市驾驶提供了良好的泛化能力和性能,其通常用作比较的基线。Urban Driver 2022通过使用闭环训练、数据驱动仿真器的中级表示和大量现实世界演示来学习城市环境中的自动驾驶策略规划。具体而言,开发了一种闭环仿真器和丰富的中级矢量化表示来学习能够执行各种行为的策略规划。此外,该方法使用一种能够根据过去演示对真实驾驶体验进行高效闭环仿真的微分仿真器,并且通过反向传播来快速计算策略梯度,从而实现快速学习。策略梯度用于学习行为的状态和映射函数。轨迹可以用映射函数生成,然后通过引导损失函数来使轨迹收敛。图5展示了用于学习驾驶策略规划的闭环训练。

▲图5|Woven Planet提出的用于学习驾驶策略规划的闭环训练方法【深蓝AI】编译

3.6 Nvidia(英伟达)

1)树结构的策略规划2023:

英伟达提出了一种与最先进的深度学习预测模型兼容的树策略规划(TPP),以生成多阶段运动规划。TPP通过构建两种树结构将连续规划问题转化为可处理的离散马尔可夫决策过程(MDP):用于自车轨迹选择的自车轨迹树和用于多模态自车条件环境预测的场景树。图6展示了英伟达的树结构策略规划的架构。

▲图6|英伟达提出的树结构策略规划的架构【深蓝AI】编译

TPP的有效性在基于现实世界nuScenes数据集的闭环仿真中得到证明。闭环仿真结果表明,TPP显著优于可以实时运行且计算成本较低的非策略基准。然而,当存在大量规划节点时,树结构策略规划通常会消耗大量的计算成本。

2)可微分的树策略规划2023:

英伟达和南洋理工大学(NTU)开发了可微分的树策略规划(DTPP),其针对自车条件预测和代价模型,提出了一种树结构的策略规划器和一种可微分的联合训练框架,直接提高了最终的规划性能。对于条件预测,DTPP使用一种以query为中心的transformer模型来执行高效的自车条件运动预测。对于规划代价,DTPP提出了一种具有隐式交互功能的可学习context-aware代价函数,促进了可微分的联合学习。

英伟达和NTU开发的DTPP的决策框架和具有联合可学习的预测和代价评估模型框架分别如图7和图8所示。

▲图7|英伟达和NTU开发的DTPP的决策框架【深蓝AI】编译

▲图8|具有联合可学习的预测和代价评估模型的DTPP框架【深蓝AI】编译

具体而言,DTPP使用树搜索来探索可行的轨迹集合,其中将探索的轨迹作为输入。条件预测被用于预测所有车辆的轨迹,然后由评分模块进行评估,以引导下一步的探索。通过这种方式,DTPP探索了具有丰富多样性和与道路车辆交互的各种轨迹。该方法主要包括三个模块:

1)条件预测:条件预测通过自车与其它车辆的输入来生成所有车辆的预测轨迹;

2)评分模块:逆强化学习用于学习预测轨迹的评分;

3)树策略搜索:树搜索策略用于探索各种候选轨迹。

04

学术界

在本节中,本文将回顾2022年-2023年研究自动驾驶端到端规划的最新学术研究。

4.1 占用预测规划

南洋理工大学的Liu等人提出了一种占用预测规划,其使用一种两阶段占用预测引导的神经规划器,该规划器通过预测引导以联合的方式优于基于学习的规划。集成占用预测和规划学习的框架如图9所示。

▲图9|集成占用预测和规划学习的框架【深蓝AI】编译

在第一阶段中,从集成的基于学习的框架中输出预测的占用和多模态规划结果。在第二阶段中,通过预测引导的优化从转换的预测和规划中优化规划结果。这个两阶段占用预测引导的神经规划器如图10所示。

▲图10|两阶段占用预测引导的神经规划器【深蓝AI】编译

4.2 UniAD 2023

CVPR 2023最佳论文提出了面向规划的自动驾驶,其将全栈驾驶任务整合到一个网络中。这篇论文提出了一种面向规划的端到端流程:UniAD。所有感知和预测模块都在一个transformer解码器结构中进行设计,将任务queries作为连接每个节点的接口。UniAD的流程如图11所示。

▲图11|统一的自动驾驶流程(UniAD)【深蓝AI】编译

UniAD提出了一种基于query的设计来连接所有节点,这得益于环境中智能体交互更丰富的表示。考虑到从前面节点所提取的知识,开发了一个简单的基于注意力的规划器来预测自车未来的路径点。UniAD是参考特斯拉的占用预测网络设计的,但是其具有语义分割和在线建图。它训练每个模块,并且利用联合优化前面节点到驾驶场景中最终规划的优势。虽然UniAD在开环评估中得到验证,但是尚未在闭环评估中得到验证。

4.3 NTU规划

Huang等人提出了一种基于学习的预测行为端到端规划框架,该框架包含三个模块:

1)行为生成模块,其以轨迹候选的形式产生一组不同的候选行为;

2)条件预测模块,其基于每个轨迹候选来预测其它智能体的未来轨迹;

3)评分模块,其使用最大熵逆强化学习来评估候选的规划结果。

▲图12|NTU行为规划框架【深蓝AI】编译

行为生成模块产生一组不同的轨迹候选。条件运动预测模块基于每个轨迹候选来预测其它智能体的未来轨迹。评分模块使用通过最大熵逆强化学习获取的代价函数来评估候选规划结果。条件运动预测模块将矢量化地图、智能体轨迹和自车规划作为输入,以预测其它智能体的未来轨迹。条件预测网络的结构如图13所示,其中自车规划被融合到网络中,以实现以自动驾驶汽车规划轨迹为条件对其它智能体的预测。

▲图13|条件预测网络的结构【深蓝AI】编译

条件预测模型提高了预测精度,并且有助于下游评分模块更好地评估候选决策,从而实现类似人类的行为。

4.4 nuPlan规划挑战赛CVPR 2023

nuPlan的发布标志着车辆运动规划研究进入一个新的时代,其提供了首个需要精确短期规划和长期自车预测的大规模现实世界数据集和评估方案。图14展示了在nuPlan规划挑战赛CVPR 2023中获得冠军的架构。

▲图14|nuPlan规划挑战赛CVPR 2023中获得冠军的架构【深蓝AI】编译

PDM-Closed模块选择一条中心线、预测环境并且构建不同的轨迹候选,这些轨迹候选被仿真和评分用于轨迹选择。PDM-Hybrid模块使用PDM-Closed中心线、轨迹和自车历史来预测偏移,从而仅校正长期路径点并且限制学习模型在闭环仿真中的影响。

05

总结

本文提供了自动驾驶头部企业和学术界对端到端规划的最新研究成果。在工业界,特斯拉在BEV空间中使用端到端占用网络实现规划;Momenta使用在线高精地图构建来实时生成用于规划的地图;地平线机器人采用一种新型的空间-时间热图表示用于规划,以及相应的后端求解器以确保安全且舒适的最终规划;英伟达和南洋理工大学(NTU)开发了可微分的树策略规划(DTPP),其针对自车条件预测和代价模型,提出了一种树结构的策略规划器和一种可微分的联合训练框架等。在学术界,南洋理工大学的Liu等人提出了一种占用预测规划,其使用一种两阶段占用预测引导的神经规划器,该规划器通过预测引导以联合的方式优于基于学习的规划;Huang等人提出了一种基于学习的预测行为端到端规划框架等。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O5Qzxxppgmw_lrGjLFoWh6UQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券