入群邀请:7个专业方向交流群+1个资料需求群
预测安全的无碰撞轨迹是阻碍自动驾驶汽车在公共道路上全面普及的最大挑战。虽然利用机器学习方法最近在自动驾驶运动预测方面取得了一些进展,但该领域仍处于早期阶段,需要进一步开发更有效的方法以准确地估计周围物体的未来状态。
为此,本研究提出了一种新型深度学习方法,通过使用高分辨率语义地图和航空影像来检测周围车辆的未来轨迹。我们的方法结合空间和时间学习,应用递归和卷积神经网络等新机制,以捕获视觉和时间特征进行未来运动预测。
经实验证明,我们的方法在 Lyft Level 5 预测数据集上表现良好,具有可比较的性能指标。因此,我们的方法有望应用于自动驾驶,并显示出帮助创造更安全和更高效的交通系统的潜力。
为了在公路上有效且安全地运行,自动驾驶汽车应该能够精确地预测其周围其他交通参与者(包括车辆、自行车和行人)动向。通过了解周围交通参与者的移动情况,自动驾驶汽车将能够规划其未来轨迹,并在高度安全的环境中安全导航。
自动驾驶汽车成为现实的前提条件之一车辆运动预测精度可以达到何种程度。实现这一目标需要通过计算机控制自动驾驶车辆的操作模式和决策系统,结合计算机视觉技术,使其达到高精度的运动预测。同时,通过外部传感器(相机、激光雷达和毫米波雷达等)收集的信息,自动驾驶汽车能够及时分析道路上其他车辆的运动情况,实现即时决策,从而提高整个处理过程的可靠性[6]。当自动驾驶汽车完全功能化后,与人类相比,其处理和执行信息的速度和精度更高,因此将成为一种更安全、更高效的交通工具[5]。
为了让自动驾驶汽车完全融入交通系统,最核心的问题是预测出安全无碰撞的运动轨迹。由于其巨大的潜力,已经投入了大量资源用于研究和数据收集。不过,由于当前很难准确观察和预测其他交通参与者的行为和轨迹,因此自动驾驶汽车依旧无法在公路上安全地运行[7]。因此,我们的主要目标将是利用获得的数据来改进自动驾驶汽车检测和预测道路上其他车辆运动轨迹的能力,以帮助它们规划一条无碰撞轨迹。具体来说,我们旨在使用基于深度学习的方法来预测周围车辆未来的运动情况。
最近,深度学习方法已被用于车辆运动预测。这些方法可以划分为三类,即卷积神经网络(CNN)、循环神经网络和其他方法(如全连接神经网络和图神经网络)。
Ding和Shen[8]使用LSTM编码器根据目标车辆的状态来估计其意图,以预测基于意图的轨迹。接下来,使用预期的意图和地图数据生成目标车辆的初始预测轨迹。最后,基于车辆之间的交互、交通法规和道路几何关系,使用非线性优化技术进一步改进目标车辆的初始预测轨迹。在文献[9]中,使用门控递归单元(GRU)或LSTM的各种RNN用于捕获相互依赖关系并进行预测。但是,该研究未考虑可能影响目标车辆行为的环境因素。文献[10]、[11]在鸟瞰图中通过边界框和颜色来表示周围移动物体、拟定驾驶车道、交通信号线等信息。
通过使用类图像数据,卷积神经网络在探索交通场景中移动物体的空间相互依赖性方面尤其有效。在文献[12]中,基于BEV图像的二进制表示,使用六层CNN来预测周围物体的移动轨迹。在文献[13]中,则使用自动编码器方法来提取BEV图像中后续时间步长的占用概率。这种方法首先使用编码器网络来生成特征向量,然后使用解码器网络将该特征向量提升到输出图像。为了同时具备RNN和CNNs的优势,文献[11]开发了混合网络。Deo和Trivedi[14]介绍了一种LSTM编码器-解码器方法,该方法结合了卷积社交池(convolutional social pooling),以有效地学习车辆运动中的相互依赖性。
Lyft公司提供的Lyft Level 5预测数据集是本研究中使用的数据来源[15]。到目前为止,这是目前可用的最大、最详细的车辆运动预测公共数据集。
Lyft Level 5预测数据集是通过在加利福尼亚州帕洛阿尔托的预定路径上部署20辆自动驾驶汽车,并在大约四个月的时间内收集数据而获得的。该数据集代表了感知系统的输出,包括附近骑自行车的人、行人和车辆的位置和运动的精确信息。感知系统处理来自不同传感器的原始数据,捕捉附近车辆的姿态和运动,以生成所需的数据集。用于感知的传感器是安装在自动驾驶汽车上的3个激光雷达、7个摄像头和5个雷达。
该数据集共包含170000个高清场景,每个场景持续25秒,传感器数据以10Hz的速率捕获。此外,它还提供了一个语义图,其中包含高度详细和标记的组件,以及该地区的精确空中透视图。数据集的主要组成部分如下:
• 多场景,跨度25秒,捕捉自动驾驶车辆的运动、红绿灯状态和其他交通参与者。
• 高分辨率语义地图,可捕捉其他交通代理、车道几何形状和道路规则,还包括周围环境的高清航空图像。
图1展示了一个25秒的高清语义地图的一个样本场景。自动驾驶汽车用红色表示,而其他道路使用者则用黄色表示,车道的颜色反映了它们各自所行驶方向。
图1 数据示例
所提供的语义地图是高清的,包含了道路及其他交通指示物在路径中的详细信息。总共包括8,505条车道段和15,242个已标注元素。此外,航空地图显示了Palo Alto周围区域,每像素具有6厘米的图像分辨率,这允许利用几何数据来促进运动预测。
车辆运动预测问题可以通过概率公式进行建模,以捕捉问题的不确定性。如果
表示第
辆车在
时的位置,则目标车辆(TVs)的预测运动定义如下:
其中,
是预测范围的长度,
是在时间
时自车(the ego vehicle,EV)周围的TV的总数。给定EV(
)感知的观测,通过估计条件概率分布
来建模一般问题。这种概率分布是一种捕捉车辆之间相互依赖性的相互分布。为了降低问题的复杂性,许多现有研究忽视了之后车辆操纵之间的相互依赖性。因此,该问题被减少,以便以高效的计算要求单独找到TV的运动预测。因此,每次选择一个目标车辆(TV),并计算其
,其中:
在运动预测中,我们的目标是在指定时间范围
内预测给定场景内各种交通工具的
轴和
轴的未来坐标。这包括使用他们目前的位置,在某些情况下,还包括他们过去的动向。图2展示了运动预测方法的一般框架。
图2 运动预测框架
本研究采用的基础方法是ResNet50,它是一种卷积神经网络(CNN)。这种方法可以学习提取输入数据的视觉特征。具体而言,它提取与车道、交叉口、交通信号灯等相关的信息。然而,它不能提取输入数据中存在的时间特征(运动历史)。因此,我们旨在通过使用循环神经网络(RNN)将顺序学习整合到基础模型中来改进基础模型。因此,所提出的方法可以同时提取视觉和时间特征。
残差网络,通常简称为“ResNet”,是一种支持残差学习的深度神经网络[16]。在传统的深度卷积神经网络中,有多层相互堆叠并按顺序训练。相反,具有残差学习的卷积神经网络试图学习残差,而不是直接学习特征。“残差”的概念可以定义为输出层和特定层的特征之间的差异。残差学习是通过使用跳过连接或快捷方式来实现的,这些连接或快捷键使网络能够绕过某些层,将第
层的输出直接连接到第(
)层的输入。这种方法解决了传统神经网络中常见的梯度消失问题,使残差神经网络成为一种更有效的解决方案。
图3显示了本研究中使用的残差网络的一般架构。它将图像作为输入,并在将它们通过几个卷积层和identity层后,以矩阵形式输出结果。全连接层用于将矩阵切割成(1x100)大小的向量,因为未来50个时间的输出将是
和
的形式。将矢量输出与所研究车辆运动的地面实况(
和
未来位置)进行比较。
图3 本研究中残差网络算法概览
循环神经网络(RNN)是一种旨在分析和预测序列或时间相关数据的神经网络。它们对于语言建模、语音识别和时间序列预测等任务特别有用。RNN处理数据的方式本质上是顺序的,因为输入一次一个地添加到模型中,而不是像前馈神经网络那样一次全部添加。这使得RNN非常适合于数据顺序很重要的任务,例如处理文本或语音。
RNN是通过将多个区块或单元堆叠在一起来构建的。每个单元在特定的时间步长获取一个输入,以及上一个时间步长的隐藏状态。然后,该单元处理输入和前一个隐藏状态,以产生新的隐藏状态,并将其传递给序列中的下一个单元。然后使用序列中最后一个单元的输出进行预测或分类。使用在单元之间传递的隐藏状态可以使RNN保持先前输入的内存,这对于数据上下文至关重要的任务来说可能很重要。图4显示了RNN中一个工作单元的结构。
图4 循环神经网络工作单元概览
本研究提出的运动预测方法如图5所示。该方法利用卷积神经网络(CNN)和循环神经网络(RNN)从输入数据中提取视觉和时间特征。如图所示,为了整合序列学习,我们根据历史记录将输入图像进行分割。例如,不再使用具有27个通道的一张图像(3个通道与航空地图和语义地图相关,其余的24个通道与历史记录相关),而是使用
张图片,每张图片具有
个通道,其中
是时间步长。我们为这些图像引入
个残差或CNN网络。这些网络学习为每个图像提取视觉特征。接下来,我们整合RNN网络,以学习从CNN网络提取的特征中的时间特征。
深度学习方法的一个重要部分是定义评估指标和成本函数。我们在本研究中使用的评估指标是均方误差(MSE)、最终位移误差(FDE)和平均位移误差(ADE)。这将用于测试我们的模型得到的结果的可行性。我们将位移误差定义如下:
均方误差(MSE)(用于训练和测试步骤):这是统计分析和机器学习中常用的用于评估模型预测准确性的指标。为了计算MSE,我们首先计算我们的模型的估计值和数据集中每个观测值的实际值之间的差异。然后,我们对这些差异进行平方,以消除负值的影响,并计算总体误差。接下来,我们取所有这些平方误差的平均值,得到最终的MSE。换句话说,MSE测量估计结果和实际结果之间的误差平方的平均值。平方差越大,MSE的值就越大,这表明模型的估计越不精确。相反,较小的MSE表明模型的估计更精确。
最终位移误差(FDE)(用于测试步骤):这是对移动物体最终位置或目的地预测准确性的衡量。它是通过测量物体在特定时间点的估计最终位置和实际最终位置之间的位移来计算的,该时间点通常被称为最终时间或
。
平均位移误差(ADE)(用于测试步骤):这是一个用于评估一段时间内移动车辆估计位置准确性的指标。ADE是通过计算车辆的估计位置与其在每个时间点的实际或地面实况位置之间的位置偏差来计算的,然后取给定时间段内所有这些偏差的平均值。结果是表示车辆的预测位置和实际位置之间的平均距离的单个值。它可以从下面的公式中推导出来:
其中,
和
表示运动物体的实际状态,而
和
则表示预测位置。
本节旨在评估用于预测自动驾驶运动的基本方法(图3中的残差网络)和第4-3节中讨论的拟定方法。本研究使用了Lyft公司于2020年发布的数据集[15]。其目的是预测5秒(50个时段)的未来轨迹。我们认为作为模型输入的历史是1秒或10个时段。对于CRNN网络,我们考虑两个时间步长(即
),因此考虑五个CNN网络。
在第一步中,我们旨在评估基于不同代价函数的ResNet模型。考虑了三种不同的代价函数MSE、ADE和FDE。表1给出了结果。如表所示,当分析基于MSE和ADE成本函数的输出时,我们看到结果几乎相同,但是从ADE角度看,具有ADE代价函数的ResNet在约2厘米处效果更好(第5秒时1.03 vs 1.01),而从FDE角度看,MSE代价函数使模型在约1厘米处效果更好(第5秒时1.87 vs 1.88)。相反,基于FDE代价函数的模型结果表明,虽然使用这个代价函数时,与其他代价函数相比,模型的输出FDE误差相似,但其他时段的位移误差和因此引起的ADE误差非常大(7.84)。因此,在其余实验中,我们使用MSE作为训练过程中的代价函数。
表1 基于不同代价函数的ResNet模型的结果
表2展示了ResNet和提出的方法的结果。具体来说,这个表格展示了这些方法在0.5、1、2、3、4和5秒时的位移误差。此表还给出了ADE和MSE的度量。如表所示,CRNN方法在预测近期(0.5和1秒)时优于基础残差网络,然而,它对远期的预测误差较高。例如,提出的方法在5秒的FDE误差为3.12,而ResNet对应的误差为1.87。综合考虑ADE和MSE指标,ResNet超越了提出的方法。
表2 基于FDE、ADE和MSE评估指标的RESNET和所提出方法的结果
图6展示了一些样本,CRNN方法无法很好地预测未来的轨迹。在这种情况下,浅蓝色代表模型的预测结果,而紫色代表实际运动的地面真实值,即被预测车辆的实际位置。从左上角结果的分析来看,CRNN方法预测出的距离或速度比实际值更大,说明它预期比实际发生的更多地考虑了未来的动作。同样的问题也可以在左下角的图中发现,预测轨迹比实际轨迹要大。这被认为是预测过程中的一个主要问题。另一个问题是有时预测会超过轨迹线(第一行的第三个样本)。
图6 CRNN方法在语义地图上展示的样本轨迹
在本研究中,我们调查了各种深度学习技术及其提高自动驾驶车辆预测能力的效果。具体而言,我们关注了整合空间和顺序学习的优势,即将卷积神经网络(CNN)与循环神经网络(RNN)结合起来利用空间和时间信息。
基于本研究使用的参数,我们发现联合空间和顺序学习方法在某些情况下可以提高预测结果。然而,我们也观察到还有改进的空间,通过额外的模型参数修改可能会带来进一步的改善。例如,改变CNN网络的数量或调整历史长度可能会产生更好的结果。虽然我们的研究结果表明联合空间和顺序学习是提高自动驾驶车辆预测准确性的一种有前途的方法,但需要进一步研究才能充分探索其潜力。