准确感知道路目标信息在自动驾驶系统和交通流分析中至关重要。由于复杂道路背景的多变性、目标大小和形状的多样性以及目标之间的相互遮挡,这项任务颇具挑战性。为应对这些挑战,作者引入了一种端到端的实时复杂道路目标检测模型,名为多域特征分解与去冗余检测Transformer(MDFD2-DETR)。据作者所知,这是首个基于DETR架构、专为复杂交通场景设计的实时感知模型。具体而言,作者分析了复杂道路目标感知精度低的关键原因,并提出了多域特征分解(MDFD)模块,以减少空间、通道和频域的特征冗余。此外,作者引入了混合位置编码(HPE)策略,以实现特征之间更有效的位置交互,从而解决这一问题。为训练和评估所提出的算法,作者构建了一个名为SWJTU-100k的复杂真实道路感知数据集,包含10万个样本。实验结果表明,MDFD2-DETR在参数和GFLOPs更少的情况下,超越了现有的实时方法,包括类似YOLO和DETR的模型,在不使用CUDA加速的情况下达到82.6 FPS。此外,它在PASCAL VOC 2012数据集上的mAP@0.5提升了0.5%-1.7%,在SWJTU-100K数据集上提升了1.5%-3.3%,在KITTI数据集上提升了0.5%-1.5%,在Udacity数据集上提升了0.6%-1.5%,展现出卓越的性能。此外,基于MDFD2-DETR的多目标跟踪算法在复杂道路场景中也实现了卓越的跟踪性能。
准确的道路特征提取对于感知算法的准确性至关重要,但现有模型在处理复杂道路场景时仍面临挑战。为在复杂道路场景中实现更准确的感知,作者提出了MDFD2-DETR模型,该模型包含两项关键创新:一种新颖的特征多域分解去冗余模块和一种混合位置编码策略解码器。MDFD通过多域分解减少特征冗余,提高计算效率,而混合位置编码策略增强了模型处理复杂空间关系的能力。
作者将骨干网络提取的特征分解到空间、频率和通道域,并分别在每个域上进行特征去冗余。MDFD的整体过程伪代码如下:
MDFD由三个关键组件组成:空间维度去冗余模块(SDM)、通道维度去冗余模块(CDM)和频域去冗余模块(FDM)。这三个子模块相互补充,提供了一种跨多个域进行特征分解和去冗余的综合方法。以下各节将详细介绍这三个子模块。
SDM:空间维度去冗余模块的主要思想是通过组归一化(GN)中的调制因子对输入特征进行空间去冗余。SDM的结构如图5所示。具体来说,作者使用组归一化对输入特征进行通道分组,并在每个组内进行归一化,从而缓解了层归一化(LN)和批归一化(BN)对输入特征归一化时存在的问题。为进一步评估当前输入特征中有效信息的内容,该研究引入了一组调制因子来调制输入特征。公式(1)表示GN的计算公式,公式(2)描述了调制因子的计算方法:
在上述公式中,和分别表示输入特征的均值和方差,表示一个极小的常数,和是两个可训练的尺度变换因子。值得注意的是,在GN模块中,网络可以在学习过程中决定是否以及如何对每个通道的输入特征进行缩放和平移。通过和构建调制因子来量化空间分布。因此,作者利用和来获得每个批次输入特征的空间特征选择权重,然后用这些权重过滤出有效的空间特征。
当输入特征通过选择权重时,它们被赋予了不同程度的重要性。为防止训练过程中出现梯度消失问题,作者采用残差的概念将输入特征与新的特征图连接起来,得到一个映射到范围的特征图,以确保训练过程中的稳定性。随后,使用预设阈值对特征图进行门控操作,得到输入特征的有效信息掩码,用于消除输入特征中的空间冗余信息(在实验中,门控阈值设置为0.5)。上述过程的公式如下:
最终,经过SDM模块后,作者得到一个输出
,其中已去除了空间冗余特征。
FDM和CDM:SDM模块通过一组可学习的调制因子对输入特征实现空间特征去冗余。空间特征主要关注图像中像素的位置和强度,但在捕捉复杂纹理、结构和图案中的像素间复杂关系时可能存在不足。对于具有复杂纹理和结构的图像,仅靠空间特征可能难以有效传达这些结构的层次和相互关系。因此,传统处理方法通常采用傅里叶变换进行频域特征处理。
在频域中,高频分量通常对应于图像中的细节和纹理,如边缘和纹理等精细结构的变化表现为高频分量;相反,低频分量倾向于表示整体亮度变化,包括图像中的平滑区域和渐变区域。傅里叶变换将图像从空间域转换到频域,提供不同频率分量的分布,有助于更深入地理解图像的结构和内容。此外,频域滤波器可以选择性地增强或抑制图像中的特定频率范围,便于进行有针对性的图像处理。受此启发,本文构建了一个频域特征去冗余模块,其结构如图6的前半部分所示。
在Transformer架构中,位置编码是一种关键技术,用于注入序列中每个元素的位置信息,使模型能够考虑元素的顺序。正弦位置编码(SPE)和可学习位置编码是两种主要的实现方法。正弦位置编码利用不同频率的正弦和余弦函数对位置进行编码,在一定程度上模拟了序列数据中的周期性,有助于模型捕捉某些周期性模式。其具体计算公式如下(公式(12)和(13)):
在上述公式中,表示位置索引,表示维度索引,表示模型维度,表示位置在维度的位置编码。
然而,正弦位置编码提供的是固定且通用的位置信息表示,这可能会限制模型学习和适应特定场景特征的能力。在复杂交通场景中,这种限制尤为明显,因为模型需要精确学习特定环境的细节。正弦位置编码的泛化性可能导致模型无法充分捕捉这些细节。因此,本文提出一种混合位置编码器(HPE),以高效编码输入特征(查询)的位置信息。HPE的具体结构如图7所示。
首先,本研究对输入特征(查询)应用正弦位置编码,这种方法不会增加模型的参数数量。随后,使用多层感知器(MLP)构建一个可学习位置编码模块,记为LPE。LPE能够灵活处理不同形状和大小的输入,具有较高的灵活性和泛化性,从而有效解决了固定正弦位置编码泛化性差的问题。最后,将得到的两种位置编码融合,创建混合位置编码。
HPE可以丰富模型表示空间信息的能力。可学习位置编码提供针对特定任务优化的位置信息,而正弦位置编码为模型引入具有数学连续性和周期性的全局位置信息。这种结合使模型能够更全面地理解和表达复杂交通场景中的空间关系。
在原始DETR中,多头注意力是Transformer模型的基本组件之一,它使模型在处理序列中的每个元素时能够考虑其他元素的信息。然而,过多的参数会增加模型训练的难度和计算成本。在DETR模型中,查询通常是一组学习到的嵌入向量,用于从编码器输出中检索相关信息。但是,这些查询缺乏直接的物理意义或与实际对象的直接映射,这在处理复杂场景时会使模型的理解和预测任务变得复杂。特别是在道路交通场景中,车辆、行人等物体之间的相互作用和动态变化要求模型具备强大的空间和时间推理能力。缺乏具有物理意义的查询可能会阻碍模型准确理解场景。
在本文中,查询向量被明确表示为复杂道路中物体的具体坐标信息。这种表示使查询向量能够直接学习物体的空间位置信息,即使在物体重叠的复杂背景下,也能学习单个物体的位置信息,从而提高模型在复杂场景中的准确性。此外,引入混合位置编码器对输入查询向量进行编码,进一步增强了模型理解空间信息的能力。同时,通过集成可变形注意力机制代替传统的多头注意力机制,显著降低了模型的计算负担。
用具有物理意义的坐标维度表示查询,使模型能够更直观地理解物体的空间属性,降低训练难度,加快模型的收敛速度。此外,在复杂道路场景中,同一图像中可能存在多个不同尺度的物体。清晰直接的坐标维度表达有助于模型有效地识别和定位不同尺度的物体。这在多尺度物体检测的实现中特别有益,有助于模型更好地整合不同层次的特征信息,提高多尺度检测的准确性。图8描绘了MDFD2 - DETR的解码器结构。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。