手工注释训练数据既费力又耗时。这意味着,针对计算机视觉任务的深度网络训练通常需要大量标记的训练数据,这可能既昂贵又难以获取。为了让深度学习变得更容易获取,英伟达的研究人员引入了一个结构化域随机化(structured Domain Randomization )系统,帮助开发人员通过合成数据训练和完善他们的深度网络。
“合成数据是一个有吸引力的选择,因为数据注释基本上是免费的,”研究人员在他们的论文中说。
为了生成合成数据,团队使用了一种称为结构化域随机化(SDR)的方法。这是一种通用技术,用于程序生成合成的随机图像,以保留当前问题的结构或Context。
“我们的方法只使用SDR生成的合成数据,”该团队表示。“我们发现,这个过程产生的结果不仅优于其他合成数据的生成方法,也优于来自不同领域的真实数据。”
在结构化域随机化(Structured Domain Randomization, SDR)中,随机选择一个场景,然后全局参数(道路曲率、照明、摄像机姿态等),这些参数将导致产生context样条曲线(道路车道、人行道等),并在其上放置对象(汽车、卡车、行人、自行车、房屋、建筑物等)。context样条显示为细的白色叠加线,白色点表示控制点。请注意,这些说明性的图像是从不同于用于训练的摄像机视点生成的。
SDR生成的图像可用于训练神经网络,用于对真实图像进行目标检测等感知任务。
在生成这些合成场景时,团队将场景中创建的对象随机化,包括车道、汽车、行人、路标和人行道。对于每个对象,其位置、纹理、形状和颜色都是随机的,但仅在实际范围内。该技术还随机化了照明参数,如白天的时间和图像饱和度。
以上视频显示的是在KITTI基准测试上的检测结果,仅在模拟训练后。
在合成数据(DR, SDR)或真实数据(BDD100K, KITTI)上比较Fast- RCNN。这里显示的是AP@0.7 IOU,用于从现实世界的KITTI数据集的1500幅图像中检测车辆。虽然合成数据很难胜过来自测试集(KITTI)相同分布的真实数据,但NVIDIA的SDR方法仍然优于来自另一个分布(BDD100K)的真实数据。
无论是视频还是静态图像,该网络都可以高效(或者用高准确度)的识别物体,这是值得注意的,因为网络从来没有在训练中看到过真实的图像。
Fast- RCNN在各种合成数据集上训练的比较。这里显示的是AP@0.7 IOU,用于在包含7500幅图像的整个现实世界的KITTI数据集中检测车辆。
DR数据还可以用于 pre-train的检测网络,这些网络稍后会对真实数据进行微调。
该团队还在Cityscapes数据集上测试了他们的网络,结果显示,经过特别提款权训练的网络能很好地跨越多个现实世界领域。
在未来的研究中,研究小组称他们将研究用于检测多个对象类、语义分割、实例分割和其他计算机视觉问题的SDR。