谷歌放大招!数据增强实现自动化


新智元编译

来源:Google Research

作者:Ekin Dogus Cubuk & Barret Zoph

编辑:闻菲、克雷格

【新智元导读】谷歌研究人员最新提出了一种自动数据增强方法,受AutoML的启发,他们尝试将数据增强的过程也实现自动化,使用强化学习从数据本身中找出最佳图像转换策略,在不依赖于生成新的和不断扩展的数据集的情况下,提高了计算机视觉模型的性能。

计算机视觉深度学习的成功,可部分归因于拥有大量带标记的训练数据——数据的质、量和多样性提高,模型的性能也通常会增强。但是,要收集足够多的高质量数据训练模型来实现良好的性能,通常非常困难。

解决这个问题的一种方法,是将图像对称(image symmetries)硬编码为神经网络结构,或者,让专家手动设计数据增强方法,比如旋转和翻转图像,这些都是训练性能良好的视觉模型常会用到的方法。

但是,直到最近,人们很少关注如何利用机器学习来自动增强现有数据。谷歌此前推出了AutoML,代替人为设计的系统组件,让神经网络自动设计神经网络和优化器,得到了良好的结果。受此启发,谷歌研究人员不禁问自己:是否也可以让数据增强过程自动完成?

在最新公布的论文《AutoAugment:从数据学习增强策略》(AutoAugment: Learning Augmentation Policies from Data)中,谷歌的研究人员探索了一种强化学习算法,增加了现有训练数据集中数据的数量和多样性。直观地说,数据增强用于教会模型有关数据域中的图像不变性(image invariances),让神经网络对这些重要的对称性保持不变(invariant),从而改善其性能。

研究人员表示,与以前使用手工设计数据增强策略的先进深度学习模型不同,他们使用强化学习从数据本身中找出最佳图像转换策略。结果在不依赖于生成新的和不断扩展的数据集的情况下,提高了计算机视觉模型的性能。

训练数据的增强

数据增强的思路很简单:图像具有许多对称性,这些对称性不会改变图像中存在的信息。例如,狗的镜面反射仍然是狗。这些“不变性”中的一些对人类来说显而易见,但有很多人类很难注意到。例如,mixup方法,通过在训练期间将图像置于彼此之上来增强数据,从而产生改善神经网络性能的数据。

左图:来自ImageNet数据集的原始图像。 右图:通过常用数据增强方法,水平翻转后的相同的图像。

AutoAugment是为计算机视觉数据集设计自定义数据增强策略的自动方式,例如,AutoAugment能指导基本图像转换操作的选择,例如水平/垂直翻转图像,旋转图像,更改图像颜色等。AutoAugment不仅可以预测要合并的图像转换,还可以预测所使用转换的每个图像的概率和大小,从而不总是以相同的方式操作图像。AutoAugment能够从2.9 x 10^32大的搜索空间中,选择出图像转换的最佳策略。

AutoAugment 根据所运行的数据集学习不同的转换。例如,对于包含数字自然场景的街景(SVHN)图像,AutoAugment 的重点是像剪切和平移这样的几何变换,它们代表了数据集中常见的失真现象。此外,由于世界上不同的建筑和房屋编号材料的多样性,AutoAugment机构已经学会了完全反转原始SVHN数据集中自然出现的颜色。

左:来自SVHN数据集的原始图像。右:相同的图像AutoAugment。在这种情况下,最优转换是剪切图像并反转像素颜色的结果。

在CIFAR-10和ImageNet上,AutoAugment 不使用剪切,因为这些数据集通常不包含剪切对象的图像,也不完全反转颜色,因为这些转换将导致不真实的图像。相反,AutoAugment r的重点是稍微调整颜色和色调分布,同时保持一般的色彩属性。这说明在CIFAR-10和ImageNet中对象的实际颜色是重要的,而在SVHN中只有相对的颜色是重要的。

左:ImageNet数据集的原始图像。右:AutoAugment策略转换的相同图像。首先,最大化图像对比度,然后旋转图像。

结果

我们的AutoAugment 算法发现了一些最著名的计算机视觉数据集的增强策略,这些数据集被纳入到神经网络的训练中,会产生最先进的精确性。通过增强ImageNet数据,我们获得了83.54% top1精度的新的最新精度,在CIFAR10上我们获得了1.48%的错误率,这比科学家设计的默认数据增强提高了0.83%。在SVHN上,我们将最先进的误差从1.30%提高到1.02%。重要的是,AutoAugment策略被发现是可转移的——为ImageNet数据集找到的策略也可以应用于其他视觉数据集(斯坦福汽车、FGVC-Aircraft等),从而改善神经网络的性能。

我们很高兴地看到,我们的AutoAugment算法在许多不同的竞争性计算机视觉数据集上都达到了这样的性能水平,并期待着未来在更多的计算机视觉任务中,甚至在音频处理或语言模型等其他领域,都能应用这种技术。在本文的附录中包含了性能最好的策略,以便研究人员可以使用它们来改进他们在相关视觉任务上的模型。

特别感谢文章合作者Dandelion Mane,Vijay Vasudevan和Quoc V. Le。我们还要感谢Alok Aggarwal,Gabriel Bender,Yanping Huang,Pieter-Jan Kindermans,Simon Kornblith,Augustus Odena,Avital Oliver和Colin Raffel对这个项目的帮助。

编译来源:https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

主流机器学习算法简介与其优缺点分析

机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。

1.7K4
来自专栏专知

主流机器学习算法简介与其优缺点分析

机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。 例如,Scikit-Learn的文档页面通过学习机制对算法...

3133
来自专栏机器之心

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

强化学习领域近期取得的很多成就都是通过无模型强化学习算法 [1,2,3] 实现的。无模型(MF)算法倾向于实现最佳性能,通常可应用且易于实现。

823
来自专栏人工智能

想知道深度学习如何工作?这里让你快速入门!

最近更新时间 2017年11月8日 14:58:51

1170
来自专栏新智元

吴恩达计算机视觉课程12大要点,如何赢得计算机视觉竞赛

来源:towardsdatascience.com 编译:马文 【新智元导读】本文作者最近在Coursera上完成了吴恩达的深度学习系列课程的第四门课“卷积神经...

35113
来自专栏企鹅号快讯

机器学习算法分类与其优缺点分析

机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。 例如,Scikit-Learn的文档页面通过学习机制对算法...

2067
来自专栏新智元

【珍藏】了解CNN这一篇就够了:卷积神经网络技术及发展

【新智元导读】深度学习很火,说起深度学习中一个很重要的概念——卷积神经网络(CNN)似乎也人人皆知。不过,CNN究竟是什么,涉及哪些概念,经过如何发展,真正要有...

3358
来自专栏绿巨人专栏

强化学习读书笔记 - 04 - 动态规划

3217
来自专栏机器之心

94页论文综述卷积神经网络:从基础技术到研究前景

选自arXiv 机器之心编译 参与:Panda 卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解...

3227
来自专栏灯塔大数据

干货|「大数据」和「深度学习」有什么区别?

简单来说: 1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习 2)大...

2506

扫码关注云+社区