谷歌放大招!数据增强实现自动化


新智元编译

来源:Google Research

作者:Ekin Dogus Cubuk & Barret Zoph

编辑:闻菲、克雷格

【新智元导读】谷歌研究人员最新提出了一种自动数据增强方法,受AutoML的启发,他们尝试将数据增强的过程也实现自动化,使用强化学习从数据本身中找出最佳图像转换策略,在不依赖于生成新的和不断扩展的数据集的情况下,提高了计算机视觉模型的性能。

计算机视觉深度学习的成功,可部分归因于拥有大量带标记的训练数据——数据的质、量和多样性提高,模型的性能也通常会增强。但是,要收集足够多的高质量数据训练模型来实现良好的性能,通常非常困难。

解决这个问题的一种方法,是将图像对称(image symmetries)硬编码为神经网络结构,或者,让专家手动设计数据增强方法,比如旋转和翻转图像,这些都是训练性能良好的视觉模型常会用到的方法。

但是,直到最近,人们很少关注如何利用机器学习来自动增强现有数据。谷歌此前推出了AutoML,代替人为设计的系统组件,让神经网络自动设计神经网络和优化器,得到了良好的结果。受此启发,谷歌研究人员不禁问自己:是否也可以让数据增强过程自动完成?

在最新公布的论文《AutoAugment:从数据学习增强策略》(AutoAugment: Learning Augmentation Policies from Data)中,谷歌的研究人员探索了一种强化学习算法,增加了现有训练数据集中数据的数量和多样性。直观地说,数据增强用于教会模型有关数据域中的图像不变性(image invariances),让神经网络对这些重要的对称性保持不变(invariant),从而改善其性能。

研究人员表示,与以前使用手工设计数据增强策略的先进深度学习模型不同,他们使用强化学习从数据本身中找出最佳图像转换策略。结果在不依赖于生成新的和不断扩展的数据集的情况下,提高了计算机视觉模型的性能。

训练数据的增强

数据增强的思路很简单:图像具有许多对称性,这些对称性不会改变图像中存在的信息。例如,狗的镜面反射仍然是狗。这些“不变性”中的一些对人类来说显而易见,但有很多人类很难注意到。例如,mixup方法,通过在训练期间将图像置于彼此之上来增强数据,从而产生改善神经网络性能的数据。

左图:来自ImageNet数据集的原始图像。 右图:通过常用数据增强方法,水平翻转后的相同的图像。

AutoAugment是为计算机视觉数据集设计自定义数据增强策略的自动方式,例如,AutoAugment能指导基本图像转换操作的选择,例如水平/垂直翻转图像,旋转图像,更改图像颜色等。AutoAugment不仅可以预测要合并的图像转换,还可以预测所使用转换的每个图像的概率和大小,从而不总是以相同的方式操作图像。AutoAugment能够从2.9 x 10^32大的搜索空间中,选择出图像转换的最佳策略。

AutoAugment 根据所运行的数据集学习不同的转换。例如,对于包含数字自然场景的街景(SVHN)图像,AutoAugment 的重点是像剪切和平移这样的几何变换,它们代表了数据集中常见的失真现象。此外,由于世界上不同的建筑和房屋编号材料的多样性,AutoAugment机构已经学会了完全反转原始SVHN数据集中自然出现的颜色。

左:来自SVHN数据集的原始图像。右:相同的图像AutoAugment。在这种情况下,最优转换是剪切图像并反转像素颜色的结果。

在CIFAR-10和ImageNet上,AutoAugment 不使用剪切,因为这些数据集通常不包含剪切对象的图像,也不完全反转颜色,因为这些转换将导致不真实的图像。相反,AutoAugment r的重点是稍微调整颜色和色调分布,同时保持一般的色彩属性。这说明在CIFAR-10和ImageNet中对象的实际颜色是重要的,而在SVHN中只有相对的颜色是重要的。

左:ImageNet数据集的原始图像。右:AutoAugment策略转换的相同图像。首先,最大化图像对比度,然后旋转图像。

结果

我们的AutoAugment 算法发现了一些最著名的计算机视觉数据集的增强策略,这些数据集被纳入到神经网络的训练中,会产生最先进的精确性。通过增强ImageNet数据,我们获得了83.54% top1精度的新的最新精度,在CIFAR10上我们获得了1.48%的错误率,这比科学家设计的默认数据增强提高了0.83%。在SVHN上,我们将最先进的误差从1.30%提高到1.02%。重要的是,AutoAugment策略被发现是可转移的——为ImageNet数据集找到的策略也可以应用于其他视觉数据集(斯坦福汽车、FGVC-Aircraft等),从而改善神经网络的性能。

我们很高兴地看到,我们的AutoAugment算法在许多不同的竞争性计算机视觉数据集上都达到了这样的性能水平,并期待着未来在更多的计算机视觉任务中,甚至在音频处理或语言模型等其他领域,都能应用这种技术。在本文的附录中包含了性能最好的策略,以便研究人员可以使用它们来改进他们在相关视觉任务上的模型。

特别感谢文章合作者Dandelion Mane,Vijay Vasudevan和Quoc V. Le。我们还要感谢Alok Aggarwal,Gabriel Bender,Yanping Huang,Pieter-Jan Kindermans,Simon Kornblith,Augustus Odena,Avital Oliver和Colin Raffel对这个项目的帮助。

编译来源:https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏决胜机器学习

机器学习(七) ——logistic回归

机器学习(七)——logistic回归 (原创内容,转载请注明来源,谢谢) 一、概述 1、基本概念 logistic回归(logisticre...

3246
来自专栏目标检测和深度学习

你可能不知道的7个深度学习实用技巧

深度学习已经成为解决许多具有挑战性的现实世界问题的方法。对目标检测,语音识别和语言翻译来说,这是迄今为止表现最好的方法。许多人将深度神经网络(DNNs)视为神奇...

2779
来自专栏机器之心

南京大学周志华教授综述论文:弱监督学习

35512
来自专栏机器之心

想入门设计卷积神经网络?这是一份综合设计指南

1494
来自专栏机器之心

学界 | 从文本挖掘综述分类、聚类和信息提取等算法

选自arXiv 机器之心编译 参与:机器之心编辑部 文本挖掘一直是十分重要的信息处理领域,因为不论是推荐系统、搜索系统还是其它广泛性应用,我们都需要借助文本挖掘...

3675
来自专栏人工智能头条

LIME:一种解释机器学习模型的方法

3064
来自专栏PPV课数据科学社区

【学习】数据模型需要多少训练数据?

有奖转发活动 回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。 【编者的话】毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术...

3506
来自专栏新智元

ICML 2016 谷歌 DeepMind 论文上辑(大咖点评附下载)

【新智元导读】ICLR2016 最佳论文获奖团队、谷歌 DeepMind 有9篇论文被即将于19日召开的深度学习重要会议 ICML2016 接收。新智元系统整理...

3434
来自专栏技术翻译

深度学习和神经网络的六大趋势

神经网络的基本思想是模拟计算机“大脑”中的多个相互关联的细胞,这样它就可以从环境中学习、识别不同的模式,并做出与人类相似的决定。

1641
来自专栏人人都是极客

1.训练模型之准备工作

经常关注我公众号的读者应该还记得之前写了5课关于嵌入式人工智能的文章,可以点击这里查看(文章末尾有前4节课时的推荐),前5节课时都在讲一个主题,即如何识别物体。...

3479

扫码关注云+社区