单目3D目标检测旨在从单视角图像中精确地定位和识别物体的3D信息。尽管近年来取得了进展,但在处理普遍存在的物体遮挡时,它常常会遇到困难,这些遮挡会复杂化并降低对物体尺寸、深度和方向的预测。 作者设计了MonoMAE,一个受 Mask 自编码器启发的单目3D检测器,通过在特征空间中 Mask 和重建物体来解决物体遮挡问题。MonoMAE包括两个新颖的设计。 第一个是深度感知 Mask ,它通过在特征空间中选择性地 Mask 非遮挡物体 Query 的某些部分,来模拟遮挡物体 Query 以进行网络训练。它根据深度信息自适应地平衡 Mask 和保留的 Query 部分,来 Mask 非遮挡物体 Query 。 第二个是轻量级 Query 完成,它与深度感知 Mask 一起工作,学习重建和完成 Mask 物体 Query 。通过提出的物体遮挡和完成方法,MonoMAE学习了丰富的3D表示,无论是在遮挡物体还是非遮挡物体上,都定性定性地实现了卓越的单目3D检测性能。 此外,MonoMAE还学习了可泛化的表示,能够在新的领域内有效工作。
三维目标检测已成为各种导航任务的关键组成部分。与先前依赖激光雷达[23, 56, 60]或多视角图像[24, 27, 53]的研究相比,单目三维目标检测提供了一种更具成本效益且易于获取的替代方案,它通过单视角图像识别物体并预测其三维位置。另一方面,由于缺乏多视角图像或激光雷达数据中的三维信息,单目三维目标检测要更具挑战性。
在单目三维检测的各种新挑战中,物体遮挡是其中一个关键问题,如图1(a)所示,在自然图像中广泛存在。在预测物体的三维位置时,尤其是在物体的深度、尺寸和方向方面,物体遮挡成为一个重要问题。
大多数现有的单目三维检测器,如MonoDETR 和GUPNet ,忽视了物体遮挡问题,如图1(b)所示,这会导致性能明显下降。一个简单的想法是学习重建被遮挡的物体区域,这样被遮挡的物体可以像非遮挡物体一样处理。另一方面,由于场景图像中物体遮挡的丰富变化,在图像空间中重建被遮挡的物体区域是复杂的。
受到 Mask 自动编码器(MAE)[15]的启发,该方法通过随机遮挡图像块并在表征学习中重建它们,作者将物体遮挡视为自然的 Mask ,并训练网络完成被遮挡物体区域,以学习容忍遮挡的表征。为此,作者设计了MonoMAE,一个新颖的单目三维检测框架,它采用了MAE的思想,首先在特征空间中 Mask 某些物体区域(模拟物体遮挡),然后重建被 Mask 的物体特征(学习容忍遮挡的表征)。MonoMAE包括一个深度感知 Mask 模块和一个轻量级补全网络。深度感知 Mask 根据物体深度信息自适应地 Mask 非遮挡物体的特征,以模拟物体遮挡。它生成了非遮挡和遮挡(即被遮挡)物体表征的成对数据,这些数据可以直接用于训练轻量级补全网络,旨在完成被遮挡物体并学习容忍遮挡的表征。需要注意的是,MonoMAE在推理时引入的计算开销很小,因为它在推理阶段不需要物体 Mask ,且补全网络是轻量级的。此外,通过轻量级网络在特征空间中有效地完成补全,胜过了对图像空间补全所需的复杂编码器-解码器结构。这项工作的贡献可以从以下三个方面总结:首先,作者设计了MonoMAE,一个受MAE启发的单目三维检测框架,通过在特征层面 Mask 和重建物体区域,有效地解决物体遮挡问题。其次,作者设计了自适应图像 Mask 和轻量级补全网络,它们根据物体深度自适应地 Mask 非遮挡物体(模拟物体遮挡),并分别重建被 Mask 的物体(学习容忍遮挡的表征)。第三,对KITTI 3D和nuScenes的大量实验表明,MonoMAE一致优于现有技术水平,并且它也可以推广到新的领域。
作者回顾了两个主要领域的相关工作:首先,作者讨论了深度学习技术在视觉识别方面的发展;其次,作者对视频动作识别方面的进展进行了调研。
单目3D检测旨在从单视角图像中识别和定位物体的三维信息。大多数现有工作可以广泛分为两类。第一类采用卷积神经网络,大多数方法遵循传统2D检测器[12]的以中心为导向的流程。
标准方法仅从单视角图像中学习单目3D检测器。为了获取更多的深度信息,一些研究探索利用额外的训练数据,例如激光雷达点云,深度图,以及3D CAD模型[36, 29, 7]。除此之外,一些研究以不同的方式利用2D和3D空间之间的几何关系。例如,M3D-RPN[1]将强大的2D检测器FPN[42]应用于3D检测。
MonoDLE[34]对齐2D和3D框的中心以实现更好的3D定位。GUPNet[31]利用不确定性建模从2D框估计3D框的高度。
第二类引入强大的视觉 Transformer 以实现更准确的单目3D检测。例如,MonoDTR[19]整合了上下文和深度感知特征,并将深度位置提示注入 Transformer 中。
MonoDETR[57]修改了 Transformer 以使其具有深度感知能力,并通过上下文深度线索引导检测过程。然而,大多数现有研究忽视了自然图像中普遍存在的物体遮挡,这常常明显降低单目3D目标检测的性能。
作者采用 Transformer 架构来学习能够有效处理物体遮挡的遮挡容忍表示,而无需任何额外的数据。
目标遮挡在场景图像中普遍存在,已在多个3D检测研究中进行了探讨。
一种典型的方法是学习估计被遮挡目标的完整定位。例如,Mono-3DT [18] 通过从一系列2D图像中重新识别被遮挡的车辆来估计完整的3D边界框。BtcDet [52] 利用目标形状先验并学习估计部分遮挡目标的完整形状。
一些研究在训练中考虑了遮挡程度。例如,MonoPair [8] 利用成对样本之间的关系并从它们的邻居编码被遮挡目标的空间约束。HMF [25] 引入了反遮挡损失以关注遮挡样本。
与先前方法不同,作者的MonoMAE通过在特征空间中遮盖并完成目标部分来学习增强的和容忍遮挡的表示。
Mask 自动编码器(MAE)[15]通过 Mask 图像块并重建它们来学习视觉表示,这一方法已在几项点云预训练研究中被探索。对于户外点云预训练,Occupancy-MAE [35]利用了范围感知的随机 Mask ,采用三种 Mask Level 来处理激光雷达点云的稀疏 Voxel 占用结构。GD-MAE [54]引入了一个生成式解码器,以层次化地恢复 Mask 标记,并将周围上下文合并。对于室内点云预训练,Point-MAE [37]采用MAE直接重建 Mask 标记的3D坐标。I2P-MAE [58]引入了2D预训练模型,通过多样的2D语义增强3D预训练。PiMAE [5]通过交互处理点云和RGB图像,用MAE学习跨模态表示。与上述研究不同,作者的MonoMAE处理从单视角图像中的单目3D检测,并专注于通过在特征层面学习完成被遮挡物体区域的目标遮挡问题。
单目3D检测接收单个RGB图像作为输入,旨在对物体进行分类并预测它们的3D边界框。每个物体的预测由物体类别
、一个2D边界框
和一个3D边界框
组成,其中
可以进一步分解为物体的3D位置
、物体在高度、宽度和长度上的尺寸
,以及物体的方向
。
图2展示了所提出的MonoMAE框架。给定输入图像
,3D Backbone 网络首先生成一系列3D目标 Query
(
表示 Query 数量),非遮挡 Query 分组随后将这些 Query 分类为两组,包括非遮挡 Query
和遮挡 Query
(
和
分别是非遮挡和遮挡 Query 的数量)。非遮挡 Query 掩蔽接着根据它们的深度
掩蔽
,产生掩蔽 Query
。 Query 完善进一步重建
以产生完成 Query
。最后,遮挡 Query
和完成 Query
被连接起来并输入到单目3D检测中进行3D检测预测。需要注意的是,推理过程不涉及非遮挡 Query 掩蔽,它只是将遮挡 Query
的完成(即
)与非遮挡 Query
连接起来,并将连接后的 Query 输入到3D检测Head中进行3D预测,如图3所示。
在3D Backbone 网络预测的 Query 要么被遮挡,要么未被遮挡,这取决于输入图像中相应的物体是否被遮挡。在MonoMAE中,作者在特征空间中对未被遮挡的 Query 进行 Mask 处理,以模拟遮挡,旨在生成未被遮挡和 Mask (即遮挡)的 Query 对,以学习容忍遮挡的物体表示。具体来说,作者设计了非遮挡 Query 分组(Non-Occluded Query Grouping)来识别未被遮挡的 Query ,并将它们输入到深度感知 Mask (Depth-Aware Masking)模块中合成遮挡。
具体而言,作者设计了一个非遮挡 Query 分组模块来识别非遮挡 Query ,然后将它们输入到一个设计的深度感知 Mask 模块中合成遮挡,接下来的小节将详细阐述。
非遮挡 Query 分组。 非遮挡 Query 分组根据 Query 对应的物体是否被遮挡来对 Query 进行分类。由于没有关于输入 Query 是否被遮挡的信息,作者设计了一个遮挡分类网络
来预测 Query
的遮挡情况
,其中对于第
个 Query
。非遮挡 Query 分组可以表示为:
其中
表示 Query 未被遮挡,
表示 Query 被遮挡。遮挡分类网络使用遮挡分类损失
进行训练,如下:
其中
是交叉熵损失。作者采用了二分匹配[4]来匹配预测的 Query 和图像中的物体,其中只有匹配的 Query 具有KITTI 3D[13]关于它们是否被遮挡的 GT 值
。详情请参阅附录。
深度感知 Mask 。 作者设计了深度感知 Mask ,以自适应地在特征 Level 对非遮挡 Query 特征进行 Mask 处理,以模拟遮挡,旨在为学习容忍遮挡的表示创建未被遮挡和遮挡(即 Mask )的对。如图4所示,深度感知 Mask 根据物体深度确定 Mask 比例——物体越近, Mask 比例越大,从而补偿远物体的信息不足。此外,作者在特征 Level 模拟遮挡,因为在图像 Level 进行 Mask 和重建既复杂又计算密集。
在 Query Mask 之前,深度感知 Mask 首先获得 Query 深度。在没有反向梯度传播的情况下,它采用3D检测Head为非遮挡 Query 获取深度
。在预测的深度下,每个非遮挡 Query 如Figure 4所示随机地被 Mask 。具体来说,距离摄像机较远的物体通常捕获的视觉信息较少。深度感知 Mask 通过为它们分配较小的 Mask 比例来适应这一点,从而为远物体保持更多的视觉信息以进行适当的视觉表示学习。
每个 Query 的 Mask 比例
由以下公式确定:
其中
是对每个 Query 应用的 Mask 比例,
是第
个 Query 的深度,
是数据集中的最大深度。为 Query 生成的 Mask
遵循伯努利分布。
最后, Query Mask 可以表示为:
其中
是第
个被 Mask 的 Query ,
是第
个非遮挡 Query ,
是生成的 Mask 。
Query 完成学习旨在重建自适应 Mask 的 Query ,以生成完成的 Query ,使网络学会对遮挡具有容忍性的表示,这有助于检测被遮挡的物体。作者设计了一个完成网络
来重建被 Mask 的 Query 。完成网络具有一个由三个卷积-批量归一化-relu块和一个用于3D Query 完成的卷积-批量归一化块组成的沙漏结构。具体细节请参考附录。完成的 Query
通过以下方式获得:
其中
是被 Mask 的 Query 。在 Mask 之前,完成网络在未遮挡 Query 的监督下进行训练,其中完成损失
表达如下:
其中
表示SmoothL1损失[14],
表示未遮挡的 Query ,
表示由完成网络完成的 Query 。
整个目标包括三个损失项:
、
和
,其中
和
在方程式 2 和方程式 6 中定义,而
表示用于监督3D框预测的损失。
包括用于监督3D框预测的损失,包括每个目标的3D位置、高度、宽度、长度和方向。作者将每个损失项的权重设置为1.0,整体损失函数表述如下:
数据集。作者在两个公开的单目3D目标检测数据集上对作者的方法进行了基准测试。
KITTI 3D [13] 包含7,481张训练图像和7,518张测试图像,训练数据的标签是公开可用的,而测试数据的标签存储在测试服务器上用于评估。遵循[7],作者将7,481个训练样本划分为一个新的训练集(3,712张图像)和一个验证集(3,769张图像),用于消融研究。
NuScenes [3] 包含1,000个视频场景,包括由6个环视摄像头捕获的RGB图像。该数据集被划分为训练集(700个场景)、验证集(150个场景)和测试集(150个场景)。
遵循[1, 20, 22, 31, 43],报告验证集上的性能。作者遵循先前的研究[43, 44, 57, 47],仅在KITTI 3D和nuScenes数据集最具代表性的Car类别上进行评估。
评估指标。对于KITTI 3D,作者遵循[44]并采用AP
作为评估指标,即40个召回点的AP的平均值。作者报告了在BEV和3D目标检测上的平均精度,即AP
和AP
,对于测试集和验证集,阈值均为0.7。对于nuScenes数据集,作者采用[43]中的平均绝对深度误差进行评估。
实施细节。作者在一个NVIDIA V100 GPU上进行实验,以16的批处理大小和
的学习率训练框架200个周期。作者使用带有权重衰减
的AdamW [30]优化器。作者将ResNet-50 [16]作为Transformer基础 Backbone 网络,并采用[57]中的3D检测Head用于作者的框架。
作者定量和定性地将MonoMAE与最先进的单目3D目标检测方法进行了基准测试。
定量基准测试。 如表1所示,作者在KITTI 3D测试集的Car类别上进行了定量基准测试,所有评估都是在官方在线测试服务器[13]上进行的,以保证公平性。作者可以看到,MonoMAE在所有指标上均实现了卓越的检测性能,而且没有使用任何额外的训练数据,如图像深度、视频序列、激光雷达点云和CAD 3D模型。此外,MonoMAE在Moderate和Hard类别上的表现更佳,这些类别中各种遮挡发生的频率远高于Easy类别。这种优越性能主要归功于作者设计的深度感知 Mask 和完成网络,该网络通过 Mask Query 来模拟特征 Level 的物体遮挡,并通过重建被 Mask 的 Query 来学习容忍遮挡的视觉表示。
定性基准测试。 图5展示了在KITTI 3D验证集上的定性基准测试。可以观察到,与两种最先进的方法GUPNet和MonoDETR相比,作者的MonoMAE在非遮挡物体和遮挡物体上均一致地产生了更准确的3D检测结果,即使对于一些难度较大的场景,如远距离物体。特别是,在用红箭头突出显示的情况1和情况2中,GUPNet和MonoDETR往往错过了高度遮挡物体的检测,而作者的MonoMAE通过成功检测这些具有挑战性的物体,表现明显更好,展示了其在处理物体遮挡方面的卓越能力。更多的可视化结果可以在补充材料中找到。
作者进行了广泛的消融研究,以检验作者提出的MonoMAE。具体来说,作者从技术设计、 Query Mask 方法和损失函数等方面检验了MonoMAE。
网络设计。 作者检验了MonoMAE中的两个关键设计的有效性,即深度感知 Mask 模块(DAM)和完成网络(CN)(在KITTI 3D的测试集上)。作者通过包括非遮挡 Query 分组模块(NOQG)来制定 Baseline ,该模块不会影响网络训练,因为无论是识别出的遮挡还是非遮挡 Query 都用于训练3D检测器。当仅在行2和4中合并DAM时,由于 Query 被 Mask 但未重建,导致3D检测明显退化,进而造成更多信息丢失。而当仅在行3和5中合并CN时,检测明显改善,因为完成有助于为自然遮挡的 Query 学习更好的表示。此外,在行7中在NOQG之上合并DAM和CN,比仅在行6中单独合并DAM和CN表现得明显更好,因为前者仅对非遮挡 Query 应用 Mask 和完成。它还表明,对自然遮挡的 Query 进行 Mask 以训练完成网络对所学表示是有害的。
Mask 策略。 作者研究了不同的 Mask 策略如何影响单目3D检测。
作者研究了表3中显示的三种 Mask 策略。第一种策略是随机 Mask 输入图像,旨在评估在特征层面而非图像层面进行 Mask 和完成的价值。
作者可以观察到,与特征空间中的 Query Mask 相比,图像 Level 的 Mask 明显性能较低,这主要归因于使用轻量级完成网络对 Mask 和重建图像的复杂性。
第二种策略不考虑物体深度,随机 Mask Query 特征,旨在评估物体深度在 Query Mask 中的重要性。实验表明,随机 Query Mask 显著优于图像 Level Mask 。
第三种策略执行作者提出的深度感知 Query Mask 。它一致地优于随机 Query Mask ,证明了在 Query Mask 中结合物体深度信息的价值。
损失函数。作者研究了方程式2和6中的遮挡分类损失
和完成损失
的影响,其中
指导遮挡分类网络(在非遮挡 Query 分组中)预测 Query 是否被遮挡,
指导完成网络重建被 Mask 的 Query 。
如表4所示,当仅实施
时,遮挡预测是被监督的,而 Query 重建则是无监督的。在这样一个目标下,网络学习效果不佳,因为完成网络在缺乏足够监督的情况下无法很好地重建物体 Query 。当仅实施
时,遮挡分类网络无法准确识别被遮挡和未被遮挡的 Query ,导致许多被 Mask 的 Query 被输入,从而产生更多的 Query 遮挡和较差的检测性能。当同时使用这两种损失时,性能显著提高,因为可以识别出未被遮挡的 Query 进行 Mask 和重建,从而产生对遮挡容忍的表示。
效率对比。作者在KITTI验证集上比较了几种具有代表性的单目3D检测方法的推理时间,所有比较的方法都在相同的计算环境下使用一个NVIDIA V100 GPU进行评估以保证公平性。如表5所示,GUPNet、MonoDTR和MonoDETR对每张图像的平均推理时间分别为40ms、37ms和43ms。相比之下,所提出的MonoMAE具有最短的推理时间,证明了其在单目3D检测中的高效性。这种高效性可以归因于几个因素。首先,MonoMAE没有涉及深度感知 Mask ,仅使用补全网络来重建被遮挡的 Query 。此外,补全网络是轻量级的,如表5的最后两列所示,仅引入了2ms的计算开销。进一步地,作者从网络参数和每秒浮点运算数(FLOPs)的角度分析了补全网络,表明它具有非常有限的2.22G参数和0.08M FLOPs。
泛化能力。作者通过直接将KITTI训练的MonoMAE模型应用到nuScenes验证集的汽车类别上,而不进行额外的训练,来检验所提出的MonoMAE的泛化能力。同时,也报告了在KITTI验证集上的性能以供参考。
表6显示了MonoMAE在nuScenes正面验证集的各个指标上达到最高或第二高的性能。这表明尽管从KITTI到nuScenes存在领域偏移,MonoMAE仍然保持了令人满意的性能。DEVIANT [22]在nuScenes上也实现了卓越的单目3D检测性能,因为它对不同深度的物体一视同仁,因此对深度变化具有鲁棒性。补全效果。作者还通过比较包含补全网络时完成 Query 与原始 Query 的损失(红色)与 Mask Query 与原始 Query 的损失(蓝色)来验证补全的效果。
如图6所示,包含补全网络的训练损失下降速度远比不包含补全网络时快,这表明补全网络通过学习重建 Mask Query 有效地帮助获得了对遮挡容忍的表示。
提出的MonoMAE可以在几个方面进行改进。具体来说,MonoMAE利用深度感知掩蔽来掩蔽非遮挡的 Query ,以在特征空间中模拟目标遮挡。然而,与自然遮挡目标 Query 的特征相比,掩蔽的 Query 可能有不同的模式。这种差距可能会影响掩蔽重建和完成的 Query ,进而影响学习的表示和单目3D检测性能。通过引入从大量真实世界数据中学习分布的生成网络,可以缓解这个问题,以生成更类似于自然遮挡的遮挡模式。此外,当更大规模的数据集可用时,MonoMAE可以在更广泛的数据集上进行评估和分析。
通过所提出的完成网络完成 Mask Query 显著提高了学习效果。
本文提出了一种名为MonoMAE的新方法,该方法受掩蔽自动编码器(MAE)的启发,用以解决单目3D目标检测任务中普遍存在的遮挡问题。
MonoMAE包括两个关键设计。
第一个是深度感知 Mask 模块,它模拟训练期间特征 Level 的非遮挡目标 Query 的遮挡。
第二个是轻量级完成网络,它重建并完成 Mask 的目标 Query 。定性和定量实验结果表明,MonoMAE学习到了增强的3D表示,并实现了对遮挡和非遮挡目标的卓越单目3D检测性能。
未来,作者计划研究生成方法以模拟各种3D检测任务的自然遮挡模式。
[1].MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders.