来源:深蓝AI | 首图图源:网络
准确的预测对于自动驾驶汽车在复杂环境中导航非常重要,目前大多数研究采用端到端的占用预测方法,但是由于这类方法缺乏显式的物理约束,导致带来了安全隐患。本文通过在占用预测网络中嵌入人工势场作为物理信息引导来解决这一问题。实验结果表明,本文方法提高了在不同驾驶场景下的任务完成率、安全裕度和规划效率。
论文标题:A Physics-informed End-to-End Occupancy Framework for Motion Planning of Autonomous Vehicles
论文作者:Shuqi Shen, Junjie Yang, Hongliang Lu, Hui Zhong, Qiming Zhang, Xinhu Zheng
论文链接:https://arxiv.org/pdf/2505.07855
PART.1
介绍
准确且可解释的运动规划对于在复杂且不确定的环境中导航的自动驾驶汽车(AVs)是至关重要的。尽管最近的端到端占用预测方法提高了对环境的理解能力,但是它们往往缺乏显式的物理约束,这限制了安全性和泛化性。
本文提出了一种统一的端到端框架,它将可验证的物理规则集成到占用学习过程中。具体而言,本文在网络训练过程中嵌入人工势场(APF)作为物理信息引导,以确保预测的占用地图既数据高效,又具有物理可行性。本文架构结合了卷积和递归神经网络,以捕获空间和时间依赖性,同时保留了模型的灵活性。实验结果表明,本文方法提高了在不同驾驶场景下的任务完成率、安全裕度和规划效率,证实了其在现实世界AV系统中可靠部署的潜力。
PART.2
方法
本节提出了将物理规则约束集成到占用地图预测框架中的方法,首先介绍了端到端网络的架构设计,然后解释加入物理约束是如何提高模型的物理可解释性的。在本项工作中,人工势场(APF)被用作物理约束模块,如果有需要的话,也可以用其它方案代替。
端到端占用的网络架构
本文端到端占用地图预测网络的架构旨在通过多级处理来高效地集成输入数据并且生成预测的占用地图。该系统由一系列卷积层组成,并且采用残差连接来维持特征图的一致性,并且确保信息在网络中传输时得以保留。
如图1所示,网络的工作流程始于输入表示驾驶环境或者场景数据的二进制地图,然后通过该网络进行处理。
图1|端到端占用地图预测网络,它结合了物理约束模块和预测网络
随后的卷积层负责从输入数据中提取特征。第一个卷积层有一个卷积核大小为9的输出通道,并且应用ReLU激活函数来引入非线性,使得网络能够捕获输入中的复杂模式:
其中,
为第一个卷积层的输出特征图,
为卷积核,
为二进制输入地图,
为偏置项。第二个卷积层使用大小为5的卷积核,并且采用ReLU激活函数:
其中,
为第二个卷积层的输出特征图,
为第二层的卷积核,
为对应偏置项。随后加入残差连接来确保关键特征信息被保留:
其中,
为结合
和
的残差连接结果。随后的第三个卷积层的输出通道为1,卷积核大小为7,没有应用激活函数,这允许信息更直接地传递:
其中,
为第三个卷积层的输出特征图,
为第三层的卷积核,
为对应偏置项。
然后,该网络将输出结果重塑为适合递归层处理的格式,然后连接了一个平坦层,为进一步的计算准备数据。本文采用结合LSTM和门控循环单元(GRU)架构的深度RNN层来处理时间序列并且捕获占用地图中的时间依赖关系,这是在动态环境中进行预测的基本能力:
其中,
为GRU在时刻
的输出结果,
为空间特征输入,
和
分别为LSTM和GRU层的隐藏状态。
最后,该网络输出一个维度为[B,36,9]的占用地图,其中B表示批量规模,36和9分别表示占用地图的高度和宽度。
该架构的设计考虑了自动驾驶环境的动态特性,使得网络能够捕获障碍物和车辆位置的时间变化。通过结合递归层,该网络可以有效地建模随时间的变化,从而确保准确的占用地图预测。
基于人工势场的物理信息约束
本项研究通过加入物理规则约束来提高占用地图预测的准确性。这些约束确保了模型的预测结果符合现实世界的物理原理,特别是在保持安全距离方面,从而有效地防止车辆和障碍物之间发生碰撞。
物理规则约束可以使用各种物理原则来实现。本项工作采用人工势场(APF)作为选择约束。APF的核心思想为加入几何规则,这确保占用地图的边界符合现实世界道路几何结构、交通边界和车道标记。
此外,势场函数通过施加吸引力来引导车辆朝着目标区域行驶,并且施加排斥力来防止与障碍物发生碰撞。在位置处的总势能定义为:
其中,
为位置
处的总势能,
为吸引势能,
为排斥势能。
其中,
为吸引力的正比例因子,
为目标位置,
表示欧几里得范数。
其中,
为排斥力的正比例因子,
为障碍物的位置,
为排斥力距离阈值。
理想的占用地图是通过加入这些物理规则来生成的,并且在学习过程中将预测的占用地图与理想的占用地图进行比较。通过最小化差异来实现网络学习:
其中,
为栅格
处预测的占用值,
为理想的占用值(真值),
和
分别表示占用地图的高度和宽度。
值得注意的是,尽管本项研究采用人工势场(APF)作为物理约束,但是该方法具有高度的可扩展性。其它形式的物理规则可以替代APF,而无需修改网络架构,使框架能够适应不同的任务要求或者物理先验。
总之,所提出的方法将端到端深度学习网络与物理规则约束相结合,以提高占用地图预测的准确性。网络架构通过卷积层提取特征,并且通过递归层来捕获时间依赖关系,同时物理规则的加入确保了预测结果的物理合理性,从而增强了安全性、可控性和适应性。该方法有效地提高了自动驾驶系统的可靠性和可解释性,为未来的应用提供了必要的技术支持。
PART.3
实验结果
本节从三个角度对实验结果进行全面的介绍和分析:模型训练、代表性场景分析和总体评估。首先,在模型训练部分,展示了损失函数在学习过程中的变化,以验证模型的收敛性和稳定性。接着,选择了两个具有代表性的交通交互场景,以比较本文模型生成的轨迹和真值,直观地展示了模型在不同条件下预测行为的能力。最后,在总体评估中,使用关键指标(例如碰撞时间(TTC)和任务完成率)给出了模型在所有测试场景中的性能。这些结果以表格的形式汇总,以全面评估所提出方法的有效性和优势。
模型训练
本节通过可视化学习过程中的损失趋势来评估模型的收敛性和训练稳定性。损失被定义为由物理规则生成的势场地图与由网络生成的势场地图之间所有元素的差异之和。图2展示了在训练集和验证集上的损失曲线,其中x轴表示训练迭代的总数,y轴表示每次迭代后计算的平均损失。
图2|所提出的模型在学习过程中的训练和测试损失曲线
总体而言,训练损失在早期阶段迅速下降,这表明模型能够快速学习数据中的基本模式和规则。随着训练的进行,损失降低的速度逐渐减慢,并且在第14个训练周期附近稳定下来,这表明模型已经达到了良好的收敛状态。同时,在验证集上的损失趋势与训练集上的损失趋势非常接近,没有明显的过拟合或者发散,从而进一步证实了模型架构和训练策略的有效性。
总之,对训练过程中损失曲线的系统性分析证明了,所提出的模型能够准确地模拟由物理规则生成的势场地图,为后续的行为预测和轨迹生成任务提供了可靠的基础。
典型场景
为了进一步验证所提出的方法在复杂交通场景中的建模能力,本文通过研究在相同场景下生成的势场地图,对APF方法和所提出的方法进行比较分析,如图3所示。该场景包括一辆目标车辆和若干个周围的动态交通参与者。红色区域表示高势能(即潜在的冲突区域),而蓝色区域表示低势能(即相对安全的区域)。
图3|目标车辆(红色箭头)与周围车辆(蓝色方框)交互
从可视化结果可以看出,本文方法生成的势场地图呈现出更精细的空间分布。与高势能区域保持一致的APF方法不同,本文方法为更靠近自车的区域分配更高的势能值,从而准确地捕获目标车辆和周围车辆之间的交互风险。相比之下,尽管APF方法也可以识别主要风险区域,但是其势场分布更具刚性,对动态行为变化缺乏响应,无法充分表示复杂的交互关系。
值得注意的是,基于网络的方法通过其端到端学习机制,可以自动提取场景特征,并且有效地建模车辆之间的交互效果,展现出更强的环境适应性和更好的捕获不确定性的能力。上述比较结果表明,与传统人工设计的基于规则的方法相比,所提出的方法不仅实现了更高的预测准确性,还表现出更优的泛化能力和学习能力,它在复杂交通条件下的行为预测任务中具有显著优势。
两个样本案例
为了直观地评估所提出的方法在复杂交通环境中的行为预测能力,本节选择了两个具有代表性的交互场景进行定性分析,其可视化结果如图4所示。图中,绿色轨迹表示目标车辆的预测路径,蓝点表示周围交通参与者的位置,红色区域突出了潜在的高碰撞风险区域,热图反映了模型对目标车辆未来轨迹的概率预测。
图4|APF方法和所提出的方法在两种复杂交通场景中轨迹预测结果的比较
在第一种场景中,如图4a、4c所示,与APF方法相比,本文方法使目标车辆能够根据生成的势场地图更有效地避开高风险区域,同时生成的轨迹与现实世界驾驶行为更接近。在第二种场景中,如图4b、4d所示,APF生成的轨迹虽然整体较为平滑,但是无法充分适应周围车辆的动态行为,从而导致通过高风险区域的风险相对较高。相比之下,本文方法在行为预测方面展现出更强的环境感知能力和更好的灵活性。
总之,在具有代表性的交通场景中对这两种方法进行比较的结果表明,APF方法在处理动态交互和不确定性方面存在局限性。相比之下,本文所提出的行为预测方法在轨迹合理性、交互适应性和安全风险识别方面展现出更优的能力和鲁棒性。
整体评估
为了全面评估所提出的方法在复杂交通环境中的整体性能,本节在2000 CommonRoad场景下进行实验,并且将其与基于规则的方法(CommonRoad- Reactive-Planner)进行基准测试。表格1总结了几个关键指标上的性能比较,包括任务完成率、碰撞时间(TTC)、加加速度、车头时距和执行时间。
表格1|APF和本文方法的比较结果
实验结果表明,本文方法实现了0.946的任务完成率,它高于基线0.902的完成率,这表明在各种交互场景中生成安全且可行轨迹的能力更强。对于TTC指标,本文方法获得了更长的平均时间2.979秒,而基线为2.798秒,这反映了通过更早的避障提高了安全性。在加加速度方面,本文方法将平均值显著降低到1.361 m/s³,而基线为2.079 m/s³,这表明驾驶体验能够更平稳、更舒适。类似地,车头时距指标也得到了改进,本文方法将平均间距保持在21.124米,而基线为19.054米,这进一步提高了安全裕度。
最值得注意的是,本文方法在计算效率方面有了实质性的提升。平均执行时间缩短到仅0.0019秒,比基线的0.01秒快了五倍多。规划时间的大幅缩短不仅能够实现实时部署,还为动态环境中的重新规划提供了足够的时间,这突出了所提出的方法在时间关键的自动驾驶系统中的实用价值。
总之,本文方法在成功率、安全性、平稳性和效率方面具有卓越的性能,这使其非常适用于现实世界的自动驾驶应用。
PART.4
总结
本项工作提出了一种统一的端到端运动规划框架,它将物理约束集成到占用预测过程中。通过嵌入APF作为物理信息先验,预测的占用地图既遵从数据驱动的学习,也满足现实世界的物理规则。这提高了模型的安全性、可解释性和泛化能力。本文框架有效地将卷积和递归神经网络与显式的物理引导相结合,为自动驾驶汽车运动规划提供了一种鲁棒且自适应的解决方案。
通过进行实验,结果表明在训练过程中引入物理约束可以提高安全性和计算效率。该框架保持了高度灵活性,允许在不改变网络架构的情况下加入不同的物理规则,从而在各种驾驶任务中具有广泛的适用性。
未来工作将旨在进一步优化该框架,探索物理约束的替代形式,并且将其适用性扩展到具有更高不确定性的复杂场景中。
联 系 & 声 明
进交流群
号主六耳
知识星球
声明:除文内特殊声明外,本公众号内所有文章编写或转载的目的仅用于学习和交流,不予以商用,不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有,凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳( 微信号:adas_miao ),本号将及时处理。
,安排一下?