A Shape Transformation-based Dataset Augmentation Framework for Pedestrian Detection

狼啸风云

发布于 2023-10-07 15:55:22

1390

发布于 2023-10-07 15:55:22

摘要

基于深度学习的计算机视觉通常需要数据。许多研究人员试图用合成数据来增强数据集，以提高模型的稳健性。然而，增加流行的行人数据集，如加州理工学院和城市人，可能极具挑战性，因为真实的行人通常质量较低。由于遮挡、模糊和低分辨率等因素，现有的增强方法非常困难，这些方法通常使用3D引擎或生成对抗性网络（GAN）合成数据，以生成逼真的行人。与此不同的是，为了访问看起来更自然的行人，我们建议通过将同一数据集中的真实行人转换为不同的形状来增强行人检测数据集。因此，我们提出了基于形状变换的数据集增强（STDA）框架。所提出的框架由两个后续模块组成，即形状引导变形和环境适应。在第一个模块中，我们引入了一个形状引导的翘曲场，以帮助将真实行人的形状变形为不同的形状。然后，在第二阶段，我们提出了一种环境感知混合映射，以更好地将变形的行人适应周围环境，获得更逼真的行人外观和更有益的行人检测增强结果。对不同行人检测基准的广泛实证研究表明，所提出的STDA框架始终比使用低质量行人的其他行人合成方法产生更好的增强结果。通过扩充原始数据集，我们提出的框架还将基线行人检测器在评估基准上提高了38%，实现了最先进的性能。

1、介绍

随着大规模行人数据集的引入、，深度卷积神经网络、已经实现了很有希望的检测精度。然而，由于在训练期间负背景示例大大超过正前景示例的问题，训练的DCNN检测器可能不够鲁棒。最近的研究证实，用有限的前景例子训练的DCNN检测器可能容易受到具有意外状态和多样化姿势的复杂物体的攻击。

为了提高检测器的鲁棒性，除了设计新的机器学习算法外，许多研究人员还试图通过生成新的前景示例来增强训练数据集。例如，Huang等人使用3D游戏引擎模拟行人，并将其改编为行人数据集。其他研究试图通过使用生成对抗性网络（GANs）转移行人的姿势来增强人物识别数据集。尽管取得了进展，但在常见的行人检测数据集上充分应用现有的增强方法仍然非常具有挑战性。首先，使用3D游戏引擎等外部平台合成行人可能会在合成行人和真实行人之间引入显著的领域差距，限制生成行人的整体收益，以提高检测真实行人的模型稳健性。此外，关于利用GANs渲染行人的方法，它们通常需要来自成对训练图像的丰富外观细节，以帮助确定训练过程中生成网络的期望输出。然而，在加州理工学院和城市人等常见的行人检测数据集中，由于小尺寸造成的严重遮挡、外观模糊和分辨率低等因素，行人通常质量较低。因此，这些可用的真实行人只能提供极其有限的外观细节，这些细节可用于训练生成网络。在没有对合成行人的期望外观进行充分描述的情况下，我们可以在实验中表明，当前基于GAN的方法只能使用来自常见行人检测数据集的非常低质量的行人来生成不太真实甚至损坏的行人。

通过解决上述问题，我们建议通过根据不同的形状（即本研究中的分割掩模）从同一数据集中转换真实行人来增强行人数据集，而不是渲染新的行人。我们的动机来自以下观察。首先，与需要足够的外观细节来定义所需输出的现有方法不同，如果数据集中只有低质量的行人示例，那么更容易访问丰富的像素级形状变形监督，该监督可以定义从一个形状到另一个形状的变形。学习到的形状之间的变形可以指导真实行人的外观变形，避免了直接定义变换后的外观需要详细的监督信息。此外，由于形状信息可以自然地区分前景区域和背景区域，我们可以简单地专注于将合成的前景外观适应背景环境，避免了当前基于GAN的方法中需要的与合成的行人一起进一步生成非自然背景环境的风险。最后但同样重要的是，我们发现，基于不同形状变换真实行人可以有效地增加前景样本的多样性，同时仍然充分保持真实行人的外观特征。

基于这些观察，我们设计了一个基于形状变换的数据集增强（STDA）框架，以更有效地完成行人数据集增强任务。图1概述了我们的框架。特别是，该框架首先将真实的行人变形为相似但形状不同的行人，然后将变形的行人形状调整为待增强图像上的周围环境。在STDA框架中，我们引入了一个形状引导的翘曲场，这是一组定义形状之间翘曲操作的向量，以进一步定义真实行人的形状和外观之间的适当变形。此外，我们引入了一个环境感知混合映射，以帮助变形的行人更好地融入各种背景环境，在图像上提供更逼真的行人外观。

在本研究中，我们的主要贡献如下：

–我们提出了一个基于形状变换的数据集增强框架，以增强行人检测数据集并提高行人检测精度。据我们所知，我们是第一个将基于形状变换的数据合成方法应用于行人检测的人。

–我们提出了形状引导翘曲场，以帮助确定正确的形状变形过程。我们还引入了一种环境感知混合映射，以更好地将形状变换后的行人适应不同的背景，从而在图像上获得更好的增强效果。

–我们引入了形状约束操作来提高形状变形质量。我们还应用了硬正挖掘损失来利用硬挖掘技术的概念，并进一步放大合成行人的好处，以提高检测稳健性。

–我们提出的框架有望生成行人，尤其是在使用低质量示例时。对著名的加州理工学院和城市人基准的综合评估证实，与使用低质量数据的现有方法相比，我们提出的框架可以生成更逼真的行人。通过我们的框架增强行人数据集，我们有望提高基线行人检测器的性能，获得其他尖端行人检测器的卓越性能。

2、相关工作

2.1、行人检测

行人在许多应用中至关重要，如机器人和自动驾驶和下游任务，如跟踪、场景分割和关键点估计。传统的行人检测器通常使用手工制作的特征，并采用基于人体部位的检测策略或级联结构。最近，通过利用大规模的行人数据集，研究人员极大地提高了DCNN的行人检测性能。在DCNN检测器中，两级检测流程通常比单级检测流程性能更好。尽管取得了进展，但行人数据集中前景和背景示例极不平衡的问题仍然对DCNN检测器的鲁棒性产生了不利影响。目前的行人检测器即使对行人进行微小的改造也可能很脆弱。为了解决这个问题，许多研究人员倾向于通过合成新的前景数据来扩充数据集。

2.2、基于模拟的数据增强

为了实现数据集扩充，研究人员使用3D模拟平台来合成数据集的新示例。例如，使用3D游戏引擎来帮助构建新的数据集。更多的相关研究使用3D模拟平台来增强与行人相关的数据集。特别是，使用游戏引擎来合成行人检测的训练数据。此外，将GAN应用于识别3D模拟行人和自然行人之间的域间隙，以增强行人数据集，但该方法对普通行人检测的改进有限，表明域间隙仍然很大。然而，模拟行人和真实行人之间仍然存在显著的领域差距。这样的差距可能会进一步对DCNN检测器造成负面影响，使增强的数据集在行人检测方面提供增量改进。

2.3、基于GAN的数据增强

最近，随着一些改进，GANs在基于合成的应用上显示出了巨大的好处，如图像到图像翻译和骨骼到图像生成。

在人物识别任务的文献中，许多工作试图转移真实行人的姿势，以提供多样化的行人来进行增强。例如，（刘等人2018；马等人2018；Siarohin等人2018；赞菲尔2018；葛等人2018；张等人2017；马等人2017）引入了各种技术，根据2D或3D姿势变换人的外表，提高人的识别性能。（Vobecky等人，2019）提出了一种根据不同姿势生成行人的新方法。综合结果很有希望，可以模拟罕见的行人情况。

在实践中，这些方法需要准确可靠的姿态信息或包含丰富外观细节的成对训练图像来实现成功的变换。然而，像加州理工学院这样的现有广泛使用的行人数据集既没有提供姿势注释，也没有提供用于训练GANs的成对外观信息。此外，在当前的行人数据集中，大量外观质量通常较低的小行人可能会使现有的姿态估计器难以提供合理的预测。图2显示了一些例子，描述了低质量行人的姿势比使用相同的Mask RCNN估计的面具更不稳定（He等人，2017）检测器。因此，无缝地应用这些姿势转换模型来扩充当前的行人数据集是非常不可行的。

在行人检测方面，一些研究引入了专门设计的用于增强的GANs。例如，（欧阳等人，2018b）修改了pix2pixGAN（Isola等人，2017），使其更适合行人生成，但该方法缺乏一种特殊的机制来帮助生成多样化的行人，并且该方法仍然基于低质量数据产生较差的生成结果。在这项研究中（Lee等人，2018），作者引入了一种端到端的可训练神经网络，以完成在城市场景中放置新的行人面罩和车辆面罩的任务，但它不会生成经过转换的行人外观来增强数据集。此外，（Liu等人，2019）开发了一种有效的展开机制，该机制联合优化生成模型和检测器，通过向具有有限训练示例的数据集生成新数据来提高检测性能。这种方法直接从噪声中生成行人外观，而我们的方法主要转换真实行人的形状，以在低质量数据上实现更好的增强性能。

在这项研究中，我们提出，通过改变行人的形状来从原始数据集中转换行人，可以产生多样化、更逼真的行人，而不需要丰富的外观细节来进行监督。

3、基于形状变换的数据集增强框架

3.1、问题定义

数据增强技术，通常被表述为原始数据的转换，已被用于访问图像识别中的绝大多数最先进的结果。数据扩充被直观地解释为增加训练数据大小，并作为可以对假设复杂性建模的正则化子。特别是，假设复杂性可以用来测量学习算法的泛化误差，即训练误差和测试误差之间的差异。更大的假设复杂性通常意味着更大的泛化误差，反之亦然。在实践中，小的训练误差和小的泛化误差是有利的，以保证小的测试误差。因此，数据扩充对于深度学习模型尤其有用，因为深度学习模型在保持较小的训练误差方面很强大，但具有较大的假设复杂性。经验证明，数据扩充操作可以极大地提高深度模型的泛化能力。

在这项研究中，总体目标是设计一个更有效的数据集增强框架来改进行人检测模型。该框架旨在生成多样化、更逼真的行人示例，以丰富真实行人通常质量非常低的相应数据集。我们通过将真实的行人转换成不同的形状而不是渲染新的行人来实现这一目标。首先，我们使用变形运算，将行人的形状适当地转换为各种形状，以丰富行人的外观。变形引入了适当的噪声来帮助正则化深度模型，而不是像PS-GAN这样的现有方法，后者可能会通过产生不太真实的训练示例来分散深度模型的注意力。其次，我们应用适当的环境适应，将生成的行人更好地融入不同的背景区域。这最大限度地降低了产生明显的非自然伪影的风险，这些伪影可能会影响性能，同时保持生成的行人外观的丰富多样性。因此，我们的方法可以有效地规范假设的复杂性。我们的实验从经验上证明了这一点，实验表明，使用我们的方法来增强数据集可以显著提高基线模型的行人检测性能，并优于其他增强方法。

形式上，假设

是数据集中包含真实行人的图像块，

是其提取的形状或分割掩码。这里，我们将行人

的形状或“掩模”

称为一组标签，表示为

，其将行人斑块内的前景区域与背景区域区分开来，其中（x，y）表示图像上的坐标：对于前景上的位置（x，y），

=1，对于背景上的位置。将

表示为可以基于另一个真实行人的形状获得的不同形状。在这项研究中，我们实现了一个基于形状变换的数据集增强函数，表示为

，通过将真实行人转换为外观更逼真但具有另一形状

的新行人来生成新行人：

其中

是通过将其形状

转换为

而包含新生成的行人

的补丁，

是要增强的图像。

在行人检测数据集中，很难访问足够的外观细节来确定所需的

，使得使用低质量外观生成逼真的行人变得极具挑战性。为了正确地实现

，我们将行人生成任务分解为两个子任务，即形状引导变形和环境适应。第一个任务侧重于改变外观以丰富数据多样性，第二个任务主要将变形的行人适应并融合到不同的环境中。更具体地说，我们首先将行人图像

变形为具有相似外观但不同形状

的新图像。我们根据从

到

的转换来定义变形。然后，我们将变形的行人图像适配到图像

上的一些背景环境中。用

表示实现形状引导变形的函数，用

表示实现环境适应的函数。拟议的框架实现

如下：

图3显示了所提出的框架的详细架构。如图所示，我们引入了一个形状引导的翘曲场，表示为

，以帮助实现形状引导变形功能。翘曲场被公式化为图像平面上矢量的分配，用于形状之间的翘曲。在

的帮助下，不同形状之间的变形可以引导真实行人的外观变形。我们还建议应用环境感知混合图来实现环境适应。我们将混合图定义为一组加权参数，以融合前景像素值和背景像素值。我们使用α（x，y）来表示位于位置（x，y）的混合映射的条目。在将形状变形的行人更好地适应背景环境后，我们获得了多样化和更逼真的行人专用区，以增强行人检测数据集。在实践中，我们可以使用单个端到端U-Ne来帮助在一次通过中完成这两个子任务。所使用的网络将行人补丁

、其形状

、，目标形状

和来自

的背景补丁，然后预测两个

和α（x，y）。尽管单独学习形状引导的扭曲场和环境感知的混合图更直观，但我们只是在实践中发现，U-Net有能力联合学习这两项任务的知识。共同学习和单独学习的效果是相同的。联合学习大大简化了处理框架，节省了计算资源和所需参数。因此，我们选择通过同时向U-Net提供所有必要的输入信息来融合这两个函数的学习。

3.2.1、形状指导形变

在本研究中，我们根据翘曲操作来实现变形。为了获得翘曲操作的详细描述，我们引入了形状引导翘曲场，以进一步帮助行人变形。由

表示位于（x，y）处的有助于将形状

扭曲为形状

的扭曲向量。这些扭曲向量的集合，即

，然后形成形状引导的翘曲场。这种翘曲场的一个例子可以在图4中找到，其中翘曲场有助于将

（蓝色）变形为

（紫色）。然后，假设

是根据预测的扭曲场扭曲输入图像块的函数，然后我们通过以下方式实现

：

其中

是根据形状

弯曲的行人

。在实践中，我们定义每个扭曲向量

是一个二维矢量，它包含映射的翘曲点和位于（x，y）处的原始点之间的水平和垂直位移。因此，我们可以使所使用的网络直接预测

此外，我们在双线性插值的帮助下实现了

，因为双线性插值可以适当地反向传播来自

的梯度到

，有效协助训练。有关使用双线性插值进行扭曲和训练的更多细节，我们请读者参考。

为了使形状引导的翘曲场充分描述形状之间的变形，我们确定估计的翘曲场应将形状

翘曲为形状

。假设

是根据

的翘曲形状

。然后，所需的翘曲场

应该做

尽可能接近

。由于

和

可以很容易地从行人数据集中获得，我们能够访问足够的像素级监督来训练所使用的网络。我们主要应用

距离，

，用于测量

和

之间的距离然后，L1距离可以用作网络的训练损失，以学习所需的扭曲场，这可以帮助基于等式生成形状变换的自然行人。

形状约束操作：

在实践中，我们观察到，如果目标形状

随w.r.t.si变化过大，则获得的扭曲场可能会在扭曲后扭曲输入行人，导致不自然的结果，从而降低增强性能。为了避免这种情况，我们对目标形状应用形状约束操作。

更具体地说，我们将形状约束操作定义为通过根据加权函数将目标形状

与输入形状

组合来约束目标形状

。组合定义在

上每条水平线的中点和前景区域的宽度上。假设

是

上水平线的垂直偏移。我们分别将

和

表示为y线上前景区域的中点和宽度。类似地，我们将

和

称为

线上

上前景区域的中点和宽度。然后，我们将形状约束操作定义为：

其中，

和

表示约束掩码上的中心和，

是控制约束严格性的加权函数w.r.t.y。根据等式4，较小的权重值γ（y）可以使目标形状对组合结果的贡献较小，反之亦然。对于身体的不同部位，我们将参数γ（y）设置为不同的值。特别是，我们将γ（y）定义为线性函数，它从0增加到1，y从上到下变化。因此，当y变大时，我们使γ相应地变大。这允许对垂直偏移y较大的行人身体的下部进行更多变换。

我们根据等式4制定形状约束操作，因为我们主要假设自然行人的下半身变化更多比上半身变化更多更容易接受。特别是，我们发现，过多地改变行人的上半身通常需要改变该行人的视角（例如，从侧视图到前视图），以获得自然的外观。然而，扭曲操作不会生成新的图像内容以生成不同视点的行人。

图5显示了根据等式4约束

时引入的形状约束操作的可视化示例。我们可以观察到，所提出的形状约束操作通过使行人的上半身的输出形状更接近

而下半身的输出图像更接近

来充分地约束

。

3.2.2、环境适配

在形状引导变形之后，我们将变形的行人放入图像

中以进行填充增强。然而，由于照明条件的不连续性和掩模提取器预测的不完美形状等问题，直接粘贴变形的行人有时会产生显著的外观不匹配。为了根据环境重新定义生成的行人，我们进一步进行环境适应。

为了通过考虑周围环境将形状变形的行人正确地混合到图像

中，我们引入了一个环境感知混合图来帮助重新定义变形的行人。我们制定了以下补救程序：

其中

是位于（x，y）处的环境适应结果：

其中（x，y）是位于（x，y）处的环境感知混合映射的入口值。因此，如上所述的这个重建过程表示每个输出像素

是像素

的加权组合和来自原始图像的像素

。组合权重由

计算，其中

对于前景区域为1，对于背景区域为0。估计的（x，y）的一个例子可以在图3中找到。

在实践中，很难确定所需的修复结果和所需的环境感知混合图。因此，我们无法获得适当的监督信息来训练所使用的网络进行环境适应。在没有监督的情况下，我们应用对抗性损失来促进所使用的网络学习并将变形的行人有效地融入环境。与形状引导的翘曲场类似，我们使所使用的网络直接预测环境感知的混合图。请注意，我们会约束环境感知混合贴图，以防止过多地更改变形行人的外观。特别地，我们采用了一个移位和重新缩放的tanh挤压函数，使α（x，y）的值在0.8和1.2的范围内。

3.3、目标函数

由于我们使用单个网络来预测形状引导的扭曲场和环境混合图，因此我们可以统一训练目标。首先，为了获得适当的形状引导翘曲场，我们引入了形状变形损失和循环重建损失。形状变形损失确保预测的翘曲场满足第节所述的约束。3.2.1.然后，循环重建损失确保变形的形状和行人可以变形回输入形状和行人。因此，我们定义了一对样本

的形状变形损失函数

如下：

循环损失定义如下：

其中

是

的变形结果→根据

和

是

的变形结果，使用相同的翘曲场计算

。结果，等式7描述了基于L1的形状变形损失，并且等式8形成了循环重建损失。

此外，还包括一个对抗性损失，表示为

，以确保形状引导的变形和环境适应可以帮助生成更逼真的行人补丁。与典型的GANs类似，对抗性损失是通过为所使用的网络引入鉴别器D来计算的：

其中

指的是数据集中的任何真实行人。

难正挖掘损失：

由于我们的最终目标是提高检测性能，我们进一步应用硬正挖掘损失来放大变换行人在提高检测稳健性方面的好处。受硬正生成研究的启发，我们试图生成不太容易被RCNN检测器识别的行人。与额外引入遮挡掩模和空间变换操作以生成硬阳性的研究（不同，我们只引入了损失函数来帮助所使用的网络学习为RCNN检测器生成硬阳性。为了计算这种损失，我们还训练了一个RCNN，表示为R，以区分行人斑块和不包含行人的背景斑块。假设

是硬正采矿损失，那么我们有：

其中

是指数据集中的背景图像块。尽管硬挖掘是一项发展成熟的技术，但

带来的贡献是促进行人示例的合成，这些行人示例更难检测，但更有益于训练，这与常见的硬挖掘方法不同。

和

之间的主要区别在于，

区分行人斑块和背景斑块，而

中的

区分真正的行人斑块和形状变换的行人斑块。

整体损失：

综上所述，整体训练目标

采用的网络有助于实现所提出的：

其中ω1、ω2、ω3、ω4是相应的损失权重。通常，我们借用pix2pixGAN1实现中的设置，并将ω1和ω3分别设置为100和1。由于我们在实验中发现，如果ω2太大，网络很难学习正确的形状引导翘曲场，因此在本研究中，我们根据经验将ω2设置为一个小值，即0.5。同样，我们还将ω4设置为0.5，以使硬正采矿损失对总体目标的贡献较小。在实践中，通过最小化总损失

来获得网络，通过最大化

来获得鉴别器D，并且通过最大化

来获得R。

3.4、数据增强

当用所提出的框架扩充行人数据集时，我们试图对更自然的位置和大小进行采样，以将变换后的行人放置在图像中。幸运的是，行人数据集提供了足够的知识，编码在边界框注释中，以定义自然行人的这些几何统计数据。例如，在加州理工学院的数据集中，行人的宽高比通常在0.41左右。此外，还可以使用线性模型描述行人注释边界框的底边

和高度

：

，其中

和

是系数。在图像为480乘640的加州理工学院数据集中，发现

和

分别约为1.15和-194.24。对于每个要增强的图像，我们根据这个线性模型对几个位置和大小进行采样。为了避免对背景不合适的斑块进行采样，我们倾向于限制采样的盒子与真实行人的相邻盒子不应该有太大的不同。例如，我们倾向于对真实行人周围的位置进行采样（在100像素以内），并且我们将采样斑块的高度与其最近的真实行人的高度之间的差限制在20像素以内。然后，对于每个采样的位置和大小，我们运行所提出的框架，并将变换结果放入图像中。算法1描述了应用所提出的框架来扩充行人数据集的详细流程。算法2详细描述了我们如何对图像中的位置和大小进行采样，这可以通过在真实行人周围采样来降低引入不适当背景的风险。

4、实验

我们对所提出的STDA框架进行了全面评估，以增强行人数据集。我们使用了流行的加州理工学院和CityPersons基准进行评估。

在本节中，我们将首先介绍评估数据集的总体数据集增强结果。然后，与其他尖端的行人检测器相比，我们将验证将我们提出的STDA框架应用于增强不同数据集在提高检测精度方面的改进。随后，我们对STDA框架进行了详细的消融研究，以分析STDA中不同成分对生成更逼真的行人和提高检测精度的影响。

4.1、设置和实现细节

为了进行评估，我们将不同假阳性率的对数平均未命中率（MR）视为表示行人检测性能的主要指标。在加州理工学院，我们遵循（Zhang et al.2016b）的协议，使用大约42k张图像进行训练，4024张图像进行测试。在城市人中，如原始研究中所建议的，我们使用2975张图像进行训练，并对验证集中的500张图像进行评估。我们应用Mask RCNN来提取加州理工学院的形状，并在Citypersons上使用带注释的行人面具。为了增加数据集，对于每一帧，我们使用我们的框架变换n个行人，并且n是从{1，2，3，4，5}中均匀采样的。因此，每张图像中积极的行人数量增加了1～5。

对于用于实现该框架的网络，我们使用具有8个块的U-Net架构。所有的输入和输出补丁的大小都是256×256。图6显示了所使用的U-Net的详细结构。然后，等式9中引入的

和等式10中引入的

都是具有3个卷积块的CNN。在优化过程中，我们降低了D和R的更新频率以稳定训练，即我们在U-net的每40次更新时更新D和R一次。学习率设置为1e−5，我们对数据集进行80个时期的训练。

我们采用基于ResNet50的FPN检测器作为我们的主要基线检测器。在训练该检测器时，我们根据行人检测任务修改了一些默认参数。首先，对于FPN中的区域区域网络，我们遵循（Zhang et al.2016b），仅使用纵横比为2.44的锚。我们放弃了FPN中的512x512锚，因为它们对性能没有太大贡献。此外，我们将FPN中区域提案网络（RPN）和区域CNN（RCNN）的批量大小设置为512。为了降低FPN的假阳性率，我们进一步将RPN和RCNN的前景阈值分别设置为0.5和0.7。在训练过程中，我们使输入图像的较短尺寸的长度对于加州理工学院为720，对于城市人为1024。FPN基线和用我们的方法训练的FPN都是在MS COCO数据集上预先训练的，以获得关于人的适当先验知识。我们在加州理工学院用3个epoch训练FPN检测器，在城市人身上用6个epoch训练。通常，基线检测器的最终性能在加州理工学院测试集上为10.4%的平均误检率，在CityerPersons验证集上为13.9%的平均错检率。请注意，我们将合成行人的损失值加权0.1倍，从而减少了对生成行人而非真实行人的潜在偏见。

对于本研究中引入的超参数，如循环损失和硬正挖掘损失的损失权重，我们主要根据生成的行人的质量和改进的检测器的性能，通过网格搜索来选择它们。除了FPN，我们还采用了MS-CNN作为另一个基线，以更全面地评估我们的方法。我们使用发布的源代码来实现MS-CNN，并使用合成行人的类似重量损失来训练具有所提出的STDA的MS-CNN。

4.2、数据增强结果

我们首先介绍了应用STDA框架来增强行人数据集的行人合成结果。

4.2.1、行人合成结果

在图7中，我们说明了评估的加州理工学院数据集和城市人口数据集的数据集扩充结果。即使一些行人很模糊，缺乏丰富的外观细节，我们也可以观察到，经过形状变换的行人仍然可以自然地融入图像的环境中，从而获得看起来非常逼真的行人，用于数据集增强。此外，STDA还可以在不常见的步行区域，例如街道中间区域，产生行人。这可以增加行人检测的不规则前景示例，并且该模型在增强后可以在检测行人方面更加稳健。此外，对于与真实行人相似的几何布置，所示结果可以证明，所提出的STDA框架在与真实行人类似的领域中生成行人专用区是有效的。此外，我们的方法可以产生遮挡情况，例如通过将生成的行人与真实行人重叠，这可以很有希望地增加用于训练的遮挡情况的数量，从而提高遮挡的检测鲁棒性。

此外，我们还将我们的方法与最近发表的另一种强大的基于GAN的数据渲染技术进行了比较，即PS-GAN，使用相同的背景补丁。我们用作者发布的代码实现了PS-GAN，并遵循原始的训练脚本来训练模型。然而，原始PS-GAN不包括训练数据集。为了公平比较，我们修改了其训练脚本，以包括与我们的方法中使用的相同的训练数据。正如论文中所提到的，在我们的训练数据中，有很多非常低质量的行人。此外，由于我们根据Mask RCNN的预测置信度分数丢弃了不规则形状，因此获得的用于训练的行人数量相对较少。我们的研究和PS-GAN的培训计划保持不变。图8a显示了使用现有GANs的一些行人合成结果。我们可以发现，比较的基于GAN的方法产生了非常模糊的行人。此外，生成的背景也可能是不自然的和扭曲的。比较的PS-GAN工作不好可能有几个原因。首先，由于PS-GAN在不以训练示例的质量为条件的情况下生成行人，因此我们使用的高质量数据和非常低质量数据的混合可能会在训练期间混淆PS-GAN，并影响生成行人的质量。此外，由于这里用于训练的行人数量相对较少，因此很难对PS-GAN进行彻底的训练。相反，如图6所示，8b，我们提出的STDA框架可以在不同的背景补丁中有效地生成更逼真、更自然的行人。我们的方法获得的分数明显低于PS-GAN，这意味着STDA生成的行人与真实数据更相似。这说明了它优于基于GAN的数据渲染方法。

4.2.2、对行人检测的提升

加州理工学院：

为了评估我们提出的STDA框架的增强结果，我们首先对加州理工大学基准的测试集进行评估。我们评估了相对于基线检测器的性能增益，以证明其有效性。图9显示了我们的方法与其他前沿方法相比的详细性能。特别是，我们的框架比基线FPN提高了约30%的未命中率。通过进一步应用多尺度测试，我们可以实现38%的改进，显著优于其他尖端的行人检测器。此外，我们的方法还比另一种基线检测器MS-CNN提高了3点。通过对MS-CNN的多尺度测试，我们的方法进一步提高了3.8点，获得了最低的平均未命中率6.1%。这表明我们的方法可以持续改进不同训练的检测器。

我们还提供了是否在图11中的FPN检测器上使用我们的方法的定性结果。在现有数据集中的训练示例有限的情况下，我们可以在图中发现，基线FPN检测器产生了不准确的结果（第一列）、假阳性（第二列）或假阴性（其列）。相反，用我们的方法训练的FPN可以通过提供更准确的方框和更少的错误预测来正确地检测相应图像中的行人。这进一步证明了我们的方法通过包括更多样化的训练示例来提高检测性能是有效的。

在图10中，我们还将我们的框架与其他一些增强方法进行了比较，包括直接随机粘贴真实行人的粘贴、基于pix2pixGA流程生成行人补丁的PS-GAN，以及我们只混合真实行人而不变形的方法。我们可以发现，其他三种比较方法也可以略微改进基线检测器，这表明用合成行人增强行人数据集有助于提高检测精度。然而，由于基于低质量数据合成的非自然行人，如图8a所示，PS-GAN带来的改进非常有限。即使是随机粘贴真实的行人，也可以使用低质量的数据提供稍好的改进。此外，我们还可以观察到，在低未命中率下，所比较的方法比基线检测器在每张图像上具有更高的假阳性，这表明基线检测器可能在一定程度上被非自然行人分散注意力。与其他比较的行人合成方法相比，我们提出的STDA相对于基线检测器带来的性能增益要显著得多，这表明我们提出的框架在使用低质量行人数据扩充行人数据集方面要有效得多。此外，通过STDA合成看起来更逼真的行人，增强的数据集可以在每张图像的所有假阳性情况下持续改进基线检测器。为了进一步验证使行人的形状变形以增加数据集的想法，我们进行了另一项消融研究，以评估我们的方法，该方法仅将真实行人融入环境中，而不会使其形状变形。结果也如图10所示。它表明，不使用形状变形的数据集增强比我们的完整方法性能更差，尽管它提高了随机粘贴性能。这表明，形状变形增强了合成行人的多样性，对提高检测性能很重要。

除了整体性能外，我们还介绍了特定检测属性的性能。例如，表1显示了部分或严重遮挡的行人的检测精度。根据统计数据，我们可以发现，对于部分遮挡和重度遮挡的行人，所提出的STDA可以有效降低基线检测器的平均未命中率，与其他尖端行人检测器相比，实现了良好的性能。这证明，使用我们提出的STDA框架合成具有遮挡的行人可以很有希望地帮助提高测试集中被遮挡行人的检测稳健性和准确性。此外，我们还在表2中评估了应用STDA来增强加州理工学院对具有不同宽高比的行人的性能。特别是，对于具有“典型”纵横比的行人的检测，我们提出的框架能够将基线检测器的性能提高41%。当检测具有“典型”纵横比的行人时，我们的方法也有望提高基线性能，在比较的行人检测器中获得最高的平均未命中率。这些结果表明，我们的框架可以产生丰富的多样化和有益的行人，以供增加。此外，表3显示了中距离或远距离行人的检测性能。这表明我们的方法在两个距离的行人身上都有很大的改进。由于“远”行人通常尺寸较小（例如，边界框高度小于80像素），我们的方法证明有利于提高检测器对最初难以检测的小行人的性能。

CityPersons:

在本节中，我们还报告了CityPersons验证集的性能。实验设置与加州理工学院数据集的评估类似，只是用于训练和测试的图像大小为1024×2048。

表4列出了评估方法的详细静态特性。我们可以发现，我们的框架有效地扩充了原始数据集，并提高了基线FPN检测器的性能。此外，我们的方法也很有希望地改进了MS CNN。用我们的方法训练的MS-CNN在比较的检测器中获得了最高的单模型和多尺度测试结果。通过使用我们提出的框架实现最先进的性能，我们可以验证我们提出的架构可以用低质量的行人数据一致地增加不同的行人数据集。

4.3、消融研究

在本节中，我们使用加州理工学院数据集中的低质量行人和加州理工大学基准进行训练，对所提出的行人生成和行人检测增强的STDA框架进行了全面的成分分析。

4.3.1、定量研究

我们首先评估了STDA框架中不同组成部分对行人生成任务的定性影响。特别地，我们从仅使用

监督的形状引导变形来生成行人开始实验。然后，我们逐渐添加形状约束运算、循环重建损失

、对抗性损失

、环境感知混合映射

和硬正挖掘损失

，以帮助生成行人。我们通过在图12中基于低质量的真实行人数据生成行人来呈现不同成分的影响。我们通过在图12中基于低质量的真实行人数据生成行人来呈现不同成分的影响。根据所给出的结果，我们可以观察到，通过引入更多的组件，生成的行人的质量逐渐提高，证明了STDA框架中不同组件的有效性。更具体地说，形状约束操作可以首先帮助变形操作产生较少扭曲的行人。然后，通过添加循环损失

和对抗性损失

，所获得的行人在细节上变得更加逼真。随后，引入了由

训练的环境感知混合地图，帮助变换后的行人更好地适应背景图像补丁。最后，

可以稍微改变一些外观特征，如照明或颜色，使行人与环境的区别更小，这实际上进一步提高了行人生成的结果。

此外，我们还评估了行人采样策略的效果，如第3.4节算法2所述。定性结果如图13所示。我们比较了三种不同的采样位置和大小的方案来放置合成行人：（a）我们对图像中的行人进行纯随机采样；（b）我们仅根据线性模型对图像中的行人进行采样；（c）我们根据线性模型和算法2中描述的真实行人对行人进行采样。根据所给出的结果，我们可以发现方案（a）将产生不自然的位置和大小，使合成的行人被放置在不合适的背景区域。然后，方案（b）很有希望地改进了（a）的效果，但采样大小仍然是次优的。方案（c）具有最佳的采样质量，可以生成更合适的位置和大小，显著降低包含不合适背景内容的风险。

最后，我们比较了所提出的网络的不同学习策略，包括单独学习和联合学习。联合学习训练网络同时预测形状引导的翘曲场和环境感知混合图，而单独学习训练两个独立的网络分别预测形状引导翘曲场和环境感知混合图。图14显示了使用两种学习策略的综合结果。我们可以发现，两种学习策略都产生了相同的合成性能，这表明所开发的用于合成行人的网络对学习方案不敏感。

4.3.2、定量研究

为了进行消融研究，我们将加州理工学院的训练集分为一个较小的训练集和一个验证集。更具体地说，我们收集训练中前四组的帧作为训练图像，而最后一组的帧被视为验证图像。我们在整个数据集中每30帧采样一次，以建立训练/验证集。请注意，此训练/验证集设置仅用于消融研究。

表5给出了详细的结果。我们可以发现，每个引入的组件，包括形状约束运算（SC）、循环损失（Lcyc）、对抗性损失（Ladv）、环境感知混合映射（EBM）和硬正挖掘（HPM），都可以有助于降低平均未命中率。特别是，有助于更好地使行人变形的循环和对抗性损失，以及有助于更适应变形行人的环境感知混合图，都可以大大提高合成行人在提高检测精度方面的效益。所提出的硬阳性挖掘方案可以进一步提高检测精度，证明了其在数据集扩充中的有效性。基于图12所示的定性分析，我们可以进一步得出结论，用看起来更逼真的行人来增强行人数据集可以更好地提高检测精度。

我们还研究了不同采样策略对检测性能的影响。结果如表6所示。我们可以发现，可能为合成行人引入不适当背景区域的纯随机采样对检测性能的帮助有限。引入线性模型对合成行人的位置和大小进行采样，从而有望改进随机采样，表明线性模型为放置合成行人提供了更合理的方法。通过进一步考虑真实行人，我们获得了最佳性能，说明使用线性模型和真实行人在插入合成行人时都倾向于避免不自然的背景区域。

我们进一步研究了不同学习策略，即联合学习和单独学习，对加州理工学院数据集的选定验证集的影响。在我们的主要实现中应用的联合学习在验证集上的检测得分为7.49%的对数平均未命中率。然后，单独的学习在验证集上获得了类似的检测分数，即7.51%的对数平均未命中率。这表明，与联合学习相比，单独学习带来的综合结果在提高检测方面具有几乎相同的好处。

5、结论

在这项研究中，我们提出了一种新的基于形状变换的数据集增强框架来改进行人检测。所提出的框架可以有效地将自然行人变形为不同的形状，并可以使变形的行人充分适应各种背景环境。使用数据集中可用的低质量行人数据，我们提出的框架比其他尖端的数据合成技术产生了更逼真的行人。通过将所提出的框架应用于两个不同的知名行人基准，即加州理工学院和城市人，我们极大地改进了基线行人检测器，在两个评估基准上都实现了最先进的性能。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

dataset