在像自动驾驶(AD)这样的安全关键领域,目标检测器的错误可能会危及行人和其他脆弱的道路使用者(VRU)。由于常见的评估指标不能充分指示安全,近期的研究采用了方法来识别安全关键的VRU,并将风险回注到目标检测器上。然而,这些方法没有考虑深度神经网络(DNN)训练过程中的安全因素。 因此,最先进的DNN对所有的漏检均等地进行惩罚,而不管它们的关键性如何。随后,为了减少关键故障案例的发生,即错误的负例,可能需要一个安全意识训练策略来提高对关键行人的检测性能。在本文中,作者提出了一种新颖的Safety-Adapted Loss方法,该方法在训练过程中利用估计的每个行人的关键性得分。作者从运动域中的可达集基于碰撞时间(
)指标结合距离信息来考虑最坏情况的威胁,并量化关键性。 作者使用RetinaNet和FCOS在nuScenes数据集上的评估结果表明,用作者的Safety-Adapted Loss函数训练模型,可以在不牺牲一般情况(即安全关键区域外的行人)性能的前提下,减少对关键行人的漏检。
当自主移动机器人或自动化车辆(AV)在动态且高度复杂的环境中运行时,确保对弱势道路使用者(VRU)的正确和可靠检测变得至关重要。在这方面,由于基于相机的感知技术取得了巨大成功,当前最先进的目标检测器的训练和评估方法已被广泛研究作为一项使能技术。与诸如停车场内的停车位占用检测或为等待时间分析而进行的人数统计等非安全关键的计算机视觉应用(CV)不同,在自动驾驶(AD)场景中检测失败(所谓的“假阴性”)可能导致危险的结果。因此,确保在分类和定位性能方面具有准确的感知能力,以避免与VRU发生碰撞,这是至关重要的。
让作者考虑一个应用于拥挤城市场景的行人检测器。在这种情况下,自动驾驶车辆(AVs)安全区域内的误检会带来即将发生的碰撞风险(例如,图1中用红色边框突出显示的过街场景),而远处的误检尚未影响驾驶任务(橙色边框)。随后,促进安全驾驶行为需要(i)识别城市场景中所有与任务相关的行人,以及(ii)保证对处于风险中的行人进行完美检测。因此,为了解决汇总的、纯粹基于视觉的指标的不明确性,Wolf等人,Bansal等人,以及Lyssenko等人的最新研究将关键性概念纳入了所使用目标检测器的评估中。例如,在作者的研究案例中,作者采用了基于可达性集合的碰撞时间(
)来确定与AV可能发生碰撞的最早时间点。在这里,作者的评估在一个确定的大量序列中遇到了多个安全关键的误检。
因此,问题产生了:作者如何修正潜在的安全关键的行人误检?
作为作者的主要贡献,作者提出了一种新颖的、经过安全优化的损失函数,如图1所示,在训练过程中有效地利用了单个行人的关键性。因此,作者(i)从运动域中推导出每个行人的关键性得分, (ii)作者将关键性融入到Focal Loss中,以动态调整与关键性相关的损失贡献。直观地说,通过在安全适应性损失中考虑关键性,作者放大了危险行人的损失贡献,从而让深度神经网络(DNN)专注于安全关键的情况。作者利用nuScenes数据集和两种最先进的目标检测器(RetinaNet 和FCOS)对作者的安全适应性损失进行了实验评估。作者的结果显示,作者在保持稳健的整体检测性能的同时,成功减少了安全关键区域内行人的误检。
本文的其余部分结构如下。首先,在第二节中作者回顾了相关工作,然后在第三节介绍作者构建安全适应损失函数的方法。此后,在第四节中作者提供了实验设置,第五节则是实验结果。
通常使用的评估指标如交并比(IoU)、平均平均精度(mAP)或召回率非常普遍,因为它们并不特定于某个特定任务,并且允许在不同基准之间进行有意义的比较。然而,由于这些指标与任务无关的特性,无法充分评估感知功能在部署到安全关键的自动驾驶领域时是否能够保证足够的检测性能。
沃尔夫等人[9],班萨尔等人[10],以及安德烈亚等人[15]的方法扩展了基于纯距离的考量。他们认为基于距离的、潜在的碰撞风险没有考虑到交互的动态性和关键性。因此,作者提出了一个即将发生的碰撞风险的定义,该定义采用了AD领域中的威胁度量,如TTC(时间到碰撞),以在聚合评估措施中计入一个安全指标。然而,作者依赖于简化的运动模型,该模型假设在一个时间范围内恒定的速度向量和航向。
考虑到在一段时间内智能体可能达到的所有可能的最坏状态,Topan _et al._和 Lyssenko et al.[11] 的近期工作通过源自可达性分析的动态感知区域来识别与任务相关的智能体。因此,在[18]中的研究利用了哈密顿-雅可比(HJ)可达性来构建自动驾驶车辆(AV)周围的可靠安全区域,而Lyssenko et al.[11] 假设AV受车道约束,并利用基于微分包含的运动模型来进行AV可达集的图约束计算。为了考虑未来运动的不确定性和由此产生的最坏情况下的临界性评估,作者采用Lyssenko et al.[11] 提出的框架来推导行人与AV之间可能危险交互的
。
作为目标检测任务的核心之一,损失函数的重要性不言而喻。因此,近期的研究进展已经从通用损失函数(如二元交叉熵(BCE))转向了如Focal Loss这样的新选择,以降低对分类良好的样本的重要性。
李等人[21]的进一步工作通过使用与类别相关的动态调节因子来扩展焦损,以增加稀有类别的影响。这也激励了作者的工作,在焦损中加入了一个关键性组件,以放大处于风险中的单个行人的损失贡献。
为了强调关于关键目标的检测能力,程等人[6]发布了一个关于在网络构建过程中安全规范和缓解策略的概念性 Proposal 。据作者所知,第一个实施的安全适应性回归损失是由廖等人[22]提出的。作者将Smooth-
与一个安全损失组件相加,以减小关键目标预测与 GT 之间的差异。因此,这项工作提出了一条源自鸟瞰视图(BEV)平面的安全准则,该准则量化了最近的顶点与其距离之间的不匹配。然而,出于安全考虑,作者主要关注误检(即,假阴性)的缓解,因此,作者提出了一个安全适应性的Focal Loss的变体。
在本节中,作者提出了新颖的适应性安全Focal Loss。为了减轻危险误检的发生,作者基于包含最坏情况碰撞风险的动态感知行人个体临界度构建了作者的损失函数。在第三节-A中,作者基于可达性分析中的
引入了碰撞风险,并在第三节-B中展示了组合的行人个体临界度。作者在第三节-C中说明了作者适应性安全损失的设计动机。
如图2所示,要充分评估行人与自动驾驶车辆(AV)之间交互的临界性,需要预测在当前状态下,考虑到AV和行人的潜在运动模型,情况在未来可能如何发展。
在以下内容中,作者采用了之前工作中的可达性框架来从自动驾驶车辆(AV)的角度估计每位行人的临界性。因此,作者利用基于微分包含的移动模型,分别对行人和自动驾驶车辆可能未来的状态提供一个安全的上界估计。
作者利用这些模型来获取物体在一段时间内预期运动的清晰规范,以计算出所谓的可达集,即物体可能达到的所有未来状态的无概率集合。因此,作者从图2中计算了每位行人
(红色)和作者的自动驾驶车辆
(黄色)的各自可达集。在运动模型定义方面,作者对行人采用恒定加速度模型,对自动驾驶车辆采用来自[11]的恒定速度模型。
用数学术语来说:对于场景中的每个行人
,在时间
给定一个当前系统状态
,其各自的初始条件
(由初始位置、速度和加速度表示),以及作为微分包含的恒定加速度运动模型
,作者能够计算得到可达集。
等式2意味着
包含所有状态
,这些状态始于
,并且可以通过包含在
中的轨迹
达到,其中
。请注意,作者根据等式2使用恒定速度模型
来进行
的计算。
为了估计每个行人
与自动驾驶车辆(AV)之间的临界性,作者使用碰撞时间(TTC)作为作者的威胁度量,它量化了最早的时间点。
当两个可达集相交时,即可能发生碰撞的第一个时间点。遵循Schneider等人[23]的方法,作者利用基于可达集的TTC公式来扩展当前最先进的TTC公式,后者使用没有不确定性的点估计。
请注意,目前有深度学习方法可以通过单目相机输入来预测TTC,例如利用光流[26]。然而,作者选择使用精确的 GT 信息来促进考虑安全的白盒方法。
在[11]中对 的最初研究利用可到达集合来识别在 阈值以下、即将发生碰撞风险的行人,即 TTC_{RSB,i}<ttc_{crit} 不敏感。</ttc_{crit}
具体来说,考虑到较低的自动驾驶车辆(AV)速度,可达性分析产生了一个较小空间范围的
,因此,尽管行人位于AV的直接邻近区域,但
却不是关键性的。因此,作者额外注入距离信息来考虑对于非关键性行人关于
的潜在碰撞风险。
基于这一基本理念,作者通过以下两种方式为单个行人组成临界性权重
:(i) 通过
来考虑交互中的不确定性动态的碰撞临界性 (
);(ii) 行人与自动驾驶车辆之间的距离来反映距离临界性 (
),而与运动模型无关。
现在让作者集中精力于实现
的实施,在这里作者想要设计
,即,
代表对驾驶任务最具相关性的行人。受到 Ceccarelli 等人[15]的工作启发,作者使用图3中的向下开口的抛物线,它通过点
和
,来描述随距离
变化的
。请注意,
是作者考虑行人对于驾驶任务具有安全相关性的最大距离。此外,作者利用
的非线性减少。
为了实现当
时,距离关键性的缓慢降低,_即_,对于靠近自动驾驶车辆的行人。因此,对于距离较远的行人,当
时,作者估计
。
为此,作者分别应用方程式 4 来估计
的碰撞关键性,根据时间
的非线性减少进行估计。在这里,作者使用
作为时间阈值,导致
并且对于远处的行人,
。对于组合的每个行人关键性
作者在公式中对
实施了双重加权,因为它包含了一个对动态感知的关键性估计,因此,这是一种更优的碰撞风险测量方法。
Focal Loss(参见方程7)通常用于目标检测器中,以减轻前景和背景之间的不平衡。因此,该损失的关键思想是重新平衡简单样本的损失贡献,即降低它们在训练过程中的重要性。如[13]中所述,Focal Loss FL
实现了一种通过利用加权因子
和调节因子
对通用_BCE_损失进行扩展的方法。根据定义,Focal参数
决定了
的性质,并且根据预测目标的类别概率
降低简单样本的权重。具体来说,较高的
会扩展一个样本被视为简单时的概率范围,从而相应地降低那些分类良好的样本的损失贡献。然而,当前的损失确定仅依赖于
和超参数(
),而与目标的重要性无关。
为了处理目标的重要性,Li 等人[21] 强调了长尾分布中类别相关的Focal因子,即在作者的案例中,关键行人和非关键行人之间的不平衡(见图6)。
受到李等人[21]的启发,作者希望将关键性注入到损失中,但是要在实例层面进行,即对于单个行人来说,由于安全考虑,在某一类别内应该能够区分任务相关和任务无关的目标。
在作者的工作中,作者利用第III-B节中的关键性
来放大关键行人对损失贡献的影响,对于
的情况,在作者的安全适应
中。
鉴于
的特性,对于严重的正负不平衡问题,作者使用一个更大的
,这将导致在训练过程中牺牲样本损失贡献。这限制了稀有样本的性能,即安全关键的行人。采用作者基于实例的关键性加权
,作者希望抵消对于关键行人的损失贡献的减少,并 Proposal 将Focal参数适应为
,其中
,如图4所示。
因此,作者(i)在训练过程中根据行人的临界性动态改变
的损失贡献,以及(ii)作者保持非临界行人下的
的性质,即当
时,作者得到
。请注意,对于作者的加权方法,作者从运动域直接推导出
,即不需要进行广泛超参数搜索。
在以下内容中,作者描述了评估作者新颖的安全适应损失设置的方案。在第四节A和第四节B中,作者分别介绍了所使用的数据集和数据清洗过程。在第四节C中,作者详细阐述了用于行人检测器的训练协议。
在作者的实验中,作者采用了nuTonomy提供的两个数据集:nuImages和nuScenes。作者使用带有精确边界框标注的2D nuImages数据集对行人目标检测器的初始预训练进行了处理。
由于临界性估计需要领域信息,作者需要一个包含行人位置和速度信息的3D数据集,以及用于自动驾驶车辆(AV)计算的地图信息,分别用于计算
和距离信息。因此,作者使用nuScenes数据集,因为它为一个AV的整个传感器套件提供了1000个场景的数据。作者按照 nuScenes-devkit 中定义的分割进行训练和评估。
请注意,在作者的实验中,作者只使用了前置摄像头的图像以及与场景 Token 匹配的场景对应的激光雷达点云。然而,尽管数据集标注丰富,nuScenes 数据集仅包含3D边界框。因此,作者将长方体的坐标投影到相机像素网格上,利用辅助函数 get_2D_boxes() 来获取2D行人标注。
nuScenes的标注策略会丢弃任何没有激光雷达和雷达点的目标框,以过滤掉暂时完全被遮挡的物体。然而,如图5所示,仍然存在误报标注的情况。由于get_2D_boxes()函数将长方体投影到所有摄像机的帧中,来自左摄像头和右摄像头的边界框投影可能会出现在相关的前摄像头帧中。
为了减少这类伪迹,作者利用来自运动域的行人位置信息。因此,对于每个投影的框,作者确定其长方体中心的位置是否位于前摄像头AV的物理视野内,即
。在缺少对应关系的情况下,作者将长方体与侧面摄像头中的一个关联起来,并在训练和评估阶段丢弃来自前摄像头的相应2D标注。
对于作者的行人检测器,作者使用PyTorch实现了RetinaNet和FCOS,并在nuImages上采用了以下预训练协议。
RetinaNet:在[30]中的实现中,作者采用了ResNet-50作为基础网络结构,使用学习率为
的Adam优化器,应用了在损失平台期减少学习率的调度器(耐心值=3),并以批处理大小为16的设置训练了作者的模型200个周期。在nuImages验证集中,作者对行人类别获得了0.31的AP50指标。
FCOS:作者遵循原始论文[31]的实现方法,使用ResNet-50作为 Backbone 网络,以批量大小为16进行42个周期的训练。在训练过程中,作者采用随机梯度下降优化器,初始学习率为
。此外,还应用了带有线性 Warm up 的多步学习率衰减。在这里,作者针对行人类别获得了0.48的AP50指标。
安全适应训练:针对第III-C节中两种行人检测器实现的安全适应损失,作者使用在nuImages上进行预训练的相应模型,因为它们在行人类别上表现出合理的性能。在安全适应损失下,作者在nuScenes的训练子集上训练模型,直到验证集上的损失收敛(大约4个迭代周期)。更具体地说,作者利用第III-B节中估计的临界性来动态调整行人类别的调制因子。对于其他类别,如汽车和背景类别,作者将
设为0,以保持焦损失的特性。
在第五节A部分,作者展示了作者针对RetinaNet和FCOS的新型安全适应型Focal Loss与Focal Loss Baseline 的评估,并探究了它对不同临界性行人检测能力的影响。此外,在第五节B部分,作者将安全适应型损失与行人的检测容易度相关联,并在第五节C部分,作者分析单个行人临界性设计如何影响安全关键性能。
作者首先通过定义三个区域(以及相应的行人数量),来开始作者的评估,这些区域包括了关键的(159人)、潜在的临界(1126人)和非关键的行人(3371人),如图6的热力图所示。对于距离
的情况,作者还有额外的3025个非关键行人实例,这些在图6中没有可视化。
根据每个行人的
和距离,每个单元格在nuScenes验证集中总结了相应的计数。请注意, Heatmap 右下部分不包含任何样本,因为自动驾驶车辆的速率被城市速度限制在了
(
)以下。因此,速度限制为给定距离下可行的
设定了下限。
因此,在给定的速度限制下,可能需要1.7秒的制动时间以避免碰撞。因此,作者定义了安全关键区域C,通过以下两个条件:(i)临界时间到碰撞TTC_crit=1.7秒,(ii)一个关键距离dist_crit=20米,该距离大约包含了所有行人的2.1%。潜在的安全关键区域(PC)由TTC_crit下界限定,距离直至d_crit,该范围内有14.8%的行人,非关键区域(NC)包含了验证集中剩余的行人。鉴于在第三节B中讨论的低速自动驾驶车辆(AV)的盲点(在d_crit以下的高TTC_RSB),作者在评估中明确考虑了潜在关键区域PC,因为AV仍然可能加速到限速,从而将行人推入安全关键区域C。
在表1中,作者概述了作者的方法对安全关键区域
的有效性。因此,作者将安全性自适应损失
与 Baseline Focal Loss
和
进行了比较。表格显示,与
相比,将焦点参数“朴素”地减少到
,分别降低了RetinaNet和FCOS的召回率得分(Recall
)0.7%和12%。对于
,作者也表示在使用
进行评估时,两个模型的性能分别下降了0.8%和8.2%。
因此,从结果可以得出结论,对所有样本的
进行简单的减少(从而对所有样本,无论其关键性,都导致更高的损失贡献)会导致
和
的召回率降低,即,有更多(潜在)关键性的误检。
因此,结果表明Focal参数
的动态调整在
中比
和
具有更高的敏感性。特别是对于
中的RetinaNet和FCOS,作者的方法将
的召回率 Baseline 分别提高了2.5%和3.2%。对于
,作者的评估显示RetinaNet的召回率提高了1.3%,而FCOS的性能保持稳定。
(参照表1中的AP
、AP
、AP
、AP
和精确度)。请注意,对于基于区域的评估,作者主要采用召回率得分,因为作者需要物理属性来识别行人是否为关键的、潜在关键的或非关键的。误报的检测没有关联的3D GT 数据。因此,作者不能简单地为这三个区域计算精确度。作者将其留作未来的工作。然而,在RetinaNet的整体精确度和AP
得分上,作者观察到最多只有0.4%的小幅下降。特别是对于FCOS,精确度甚至进一步提升了0.6%。
在这项消融研究中,作者探讨了损失函数的安全适应性在多大程度上与检测的难易程度相关。换句话说,作者希望确保用
训练出的模型不仅能检测到“简单”但关键的行人,例如,在直接邻近区域内且未被遮挡、容易看到的行人。在众多定义中,用于界定检测和样本难度,作者采用了nuScenes数据集的标注可见性作为一个简单的代理指标。
作者对FCOS进行了详细分析,因为它在AP
和Recall
上分别比RetinaNet高出3.4%和4.4%。图7的条形图显示了不同临界区域内行人的召回值,如图6中的区域
和
,分别用
和
对不同行人可见度分区(4个 Level ,难度递减)进行评估,直至40米。如预期,对于所有类别,分布显示出随着可见度更高(更容易的样本)召回率呈上升趋势。条形图还说明,在较高可见度下,潜在关键区域和非关键区域的行人
和
的召回分数大致相等。
考虑到作者对
的定义,作者会预期这样的行为,因为作者设计
时,对于较低临界性的行人,当
。对于较低可见度(第1和第2个 Level ),除了
之外,分布显示作者的安全适应型Focal Loss
优于 Baseline
。特别是,对于关键区域,作者在所有可见度下都观察到召回值的增加,这表明作者能够在不同难度的分区中减轻假阴性。
在第二次消融研究中,作者评估了组成每个人行横穿临界性的个别组件对性能的影响。因此,在表2中,作者将从第三节-B中解耦距离临界性
和碰撞临界性
成为一个个别的损失函数 (
和
) 并将结果与 Baseline
进行比较。与第五节-A中一样,作者对具有不同临界性的三个区域进行召回评估。
结果显示,针对特定关键性,作者所评估的损失函数表现出不同的趋势。正如作者所见,对于RetinaNet,
在几乎所有类别中都优于 Baseline
。它也比纯距离关键性
表现出更优越的结果。
总之,尽管作者基于
的临界性(如第三节-A所述)有助于识别与动态属性相关的安全关键行人,但作者的消融研究显示,在训练过程中,根据模型的不同,一个简单的临界性度量如距离可以作为一个合理的关联性代理。
这项工作提出了一种新颖的安全适应型Focal Loss,它利用训练期间每个行人的临界性来减轻关键误检的发生,即假阴性。作者将在安全关键区域定义的
和
内的新颖损失进行评估,并显示对于RetinaNet-50和FCOS-50,作者分别实现了2.5%和3.2%的召回率提升。此外,作者还证明了这种新颖的损失在安全关键区域外的行人身上保持了稳定的整体性能。这特别是使得安全适应型Focal Loss能用于自动驾驶应用,因为最初的概念提供了有希望的结果。
到目前为止,作者只考虑了减少假阴性的问题,但从安全的角度来看,假阳性也同样值得关注。在未来的工作中,应该包含一种方法来确定错误检测到的行人的关键性。此外,作者计划将安全适应损失扩展到回归任务,以提高对关键行人的检测质量。
[1].A Safety-Adapted Loss for Pedestrian Detection in Automated Driving.