成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

发布于 2019-07-12 14:44:14

7750

发布于 2019-07-12 14:44:14

文章被收录于专栏：机器之心

机器之心报道

参与：思源、一鸣、李亚洲

只要数据增强就能在 COCO 数据集上达到当前最优，谷歌大脑 Quoc Le 等研究者表明，目标检测中各种高大上的正则化方法，都不如自动数据增强来的实在。

2018 年，谷歌大脑的研究者在 arXiv 上发表论文，提出一种自动搜索合适数据增强策略的方法 AutoAugment。该方法创建一个数据增强策略的搜索空间，利用搜索算法选取适合特定数据集的数据增强策略，从而在 ImageNet、CIFAR 等分类任务上取得了极好的表现。

今日，这支团队再次宣布开源面向目标检测的数据增强策略。

本文作者之一，谷歌大脑的创始成员、AutoML 的缔造者之一 Quoc Le 在 Twitter 上表示，该策略能够极大的已经检测模型在他们基准上的表现。

论文链接：https://arxiv.org/abs/1906.11172
Github 链接：https://github.com/tensorflow/tpu/tree/master/models/official/detection

Quoc Le 等研究者表示，尽管数据增强能极大的改进图像分类表现，但它在目标检测任务上的效果还未被透彻研究过。此外，目标检测所用图像的注释会造成大量的成本，所以数据增强对此计算机视觉任务的影响可能会更大。在此研究中，作者们研究了数据增强在目标检测上的影响。

在 COCO 数据集上的实验结果说明，优化后的数据增强策略将检测准确率提升了超过 2.3 mAP，使单推理模型能够达到最佳效果——50.7 mAP。重要的是，COCO 数据集上发现的这种最佳策略可以直接迁移到其他目标检测数据集上，同样可以提升预测准确率。

左图为 COCO 数据增强示例，右图为带（红色）或不带（黑色）学习的数据增强策略效果。

研究结果说明，在目标检测方面，学习数据增强策略比最好的模型结构正则化更有效，即使在基线模型本身就很强的情况下也是如此。

目标检测中的自动数据增强

最近的研究显示，与其手动设计数据增强策略，不如让模型从数据中学习优化策略。这样可以显著提升模型在图像分类中的泛化表现。那么，是否可以直接将图像分类中的数据增强方法迁移到目标检测中？或者说找到一种新的学习方案让模型自己决定该怎样做数据增强？

在这项研究中，研究人员建立了一些可以用在目标检测数据集上的数据变换策略，并将这些策略迁移到其他检测数据集和模型结构上。研究人员使用的变换策略包括一些可以在整张图像中使用，但是不会影响边界框位置的方法（例如，从图像分类中借鉴的色彩变换策略）、也有通过改变边界框位置从而影响整个图像的策略（例如，翻转或裁剪图像），以及一些只对边界框内的目标产生影响的变换策略。

当变换策略的数量变得较大时，人为地结合不同的策略变得难以追踪。因此，研究人员只搜索针对目标检测数据集的策略。实验说明，这种策略在不同的数据集、不同的数据集大小、不同的模型结构和检测算法上都达到了非常好的效果。另外，研究人员探究了搜索空间中操作数量不同时，数据增强策略的表现，以及在不同数据集大小下增强技术的效果。

方法概要

研究人员将增强搜索视为视为离散的最优化问题，它的优化目标主要是增强策略的泛化性能。

他们定义一个增强策略为一个无序的、有 K 个子策略的集合。在训练中随机选择子策略中的一个，并在当前图像中使用。每个子策略都有 N 个图像变换过程，它们依次应用到不同的图像上。通过创建搜索空间，研究人员将搜索一个学习增强策略的问题转换为离散的最优化问题。

在这篇论文中，搜索空间由 K = 5 个子策略构成，每个子策略有 N = 2 个操作，依照顺序对单一图像进行处理。此外，每个操作都和两个超参数有关，这两个超参数定义了采用操作的概率，以及操作的大小。如下所示，图 2 展示了 5 个学习到的子策略。