Google AI 新算法:如何增强计算机视觉深度学习的效果?

来源:Kevin Alves

Google AI成员 Ekin Dogus Cubuk和谷歌大脑研究科学家Barret Zoph携手呈现新的研究成果:用AutoAugment算法进行增强数据集以提升计算机视觉深度学习的效果。

1.AutoAugment带来的新算法

深度学习中计算机视觉的成功部分归功于大量可用的带标签的训练数据 - 随着训练数据质量、多样性和数据量的提高,模型的性能也会随之提高。 然而,收集到足够高质量的数据来训练一个表现足够良好模型,通常是非常困难的。 解决这个问题的一种方法是将图像对称硬编码到神经网络架构中,使其表现更好。或让专家手动设计数据增强方法,比如旋转和翻转,这些方法通常用于训练表现良好的计算机视觉模型。

然而,直到最近, AutoML努力设计了神经网络架构和优化器以取代以前人工设计的系统组件,人们受到了这些结果的启发,才更加关注使用机器学习自动增加现有数据的方法。我们试问自己:我们是否也可以使得数据增强的过程自动化?

《AutoAugment:从数据中学习增强策略》*一文中,我们探索了一种强化学习算法,该算法可以增加现有训练数据集中数据的数量和多样性。 直观上,数据增量用于训练关于数据域中的图像不变性的模型,其使得神经网络对重要的对称性保持不变,从而改善其性能。 与之前最先进的使用人工设计的数据增强策略的深度学习模型不同,我们使用强化学习从数据本身出发找出最佳图像转换策略。最终提高了计算机视觉模型的性能,而不依赖于新的数据集生成与扩展的数据集。

论文题目:AutoAugment: Learning Augmentation Policies from Data

论文地址:https://arxiv.org/abs/1805.09501

2.增强训练数据

数据增强背后的想法很简单:图像具有许多不会改变图像中已有信息的对称。例如,狗的图像在镜像对称后仍然是狗。 虽然这些“不变性”中的一些对人们来说是显而易见的,但也有许多情况并非如此。 例如,混合方法通过在训练时将图像放置在彼此之上来增强数据,从而生成能改善神经网络性能的数据。

左:来自ImageNet数据集的原始图像。 右:通过常用数据增强变换转换的相同图像。这两幅图像关于中心对称。

AutoAugment是一种为计算机视觉数据集设计自定义数据增强策略的自动化方法。例如,它指导基本图像变换操作的选择,如水平/垂直加入图像,旋转图像,更改图像颜色等。AutoAugment 不仅可以预测可进行的图像变换的组合,还可以预测变换所用到的每个图像的概率和幅度,这样图像就不会总是以相同的方式进行操作。 AutoAugment能够从2.9 x 10^32种图像转换可能性的搜索空间中选择最佳策略。

AutoAugment会根据正在运行的数据集学习不同的转换。例如,对于涉及门牌号街景(SVHN)图,这包括了有数字的自然场景图像,AutoAugment就会专注于剪切和平移等几何变换,这些变换代表在该数据集中经常被观察到的失真。 此外,鉴于世界上不同建筑和门牌材料的多样性,AutoAugment已经学会完全反转原始SVHN数据集中自然出现的颜色。

左:来自SVHN数据集的原始图像。 右:AutoAugment转换的图像。 在这种情况下,最佳变换是剪切图像和反转像素颜色。

在CIFAR-10和ImageNet上,AutoAugment不使用剪切,因为这些数据集通常不包括剪切对象的图像;也不会完全反转颜色,因为这样会导致不切实际的图像。 相反,AutoAugment专注于稍微调整颜色和色调分布,同时保留常见的颜色属性。 这表明CIFAR-10和ImageNet中对象的实际颜色很重要,而对于SVHN,只有相对颜色很重要。

左:来自Imagenet数据集的原始图像。 右:AutoAugment转换的图像。 首先,将图像对比度最大化,然后对它进行翻转。

3.结果

我们的AutoAugment算法为一些最知名的计算机视觉数据集找到了增强策略,当这些数据集结合到神经网络的训练中便可以实现最优准确率。通过增强ImageNet的数据,我们获得了最高准确率为83.54%t的新技术(top 1)。在CIFAR10数据集上,我们的神经网络达到了1.48%的错误率,与科学家设计的默认数据相比,图像增强率技术降低了了0.83%的错误率。在SVHN数据集上,我们的最优错误率从1.30%降低到了1.02%。重要的是,我们发现AutoAugment策略是可转移的——为ImageNet数据集找到的策略也可以应用于其他计算机视觉数据集(Stanford Cars,FGVC-Aircraft等),这相应地又可以改善神经网络性能。

我们很高兴看到我们的AutoAugment算法在众多相互竞争的计算机视觉数据集上实现了这样的性能水平,并期待未来将其能更多地应用到计算机视觉乃至其他领域(如音频处理或自然语言处理的模型)中。这篇论文中包含了具有最佳性能的策略,研究人员可以使用它们来改进相关计算机视觉任务的模型。

致谢

特别感谢论文的共同作者Dandelion Mane,Vijay Vasudevan和Quoc V. Le。 我们还要感谢Alok Aggarwal,Gabriel Bender,Yanping Huang,Pieter-Jan Kindermans,Simon Kornblith,Augustus Odena,Avital Oliver和Colin Raffel对这个项目的帮助。

翻译:Freya

审校:Nevermoes

编辑:李沛欣 Yiri

https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html

在线阅读:

https://chinagdg.org/2018/06/improving-deep-learning-performance-with-autoaugment/

推荐课程

课程地址:https://campus.swarma.org/gcou=10486

关注集智AI学园公众号

获取更多更有趣的AI教程吧!

搜索微信公众号:swarmAI

学园网站:campus.swarma.org

商务合作和投稿转载|swarma@swarma.org

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180805G1BS8400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券