解读 | “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

AI 科技评论按:过去十年里,研究人员在计算视觉领域取得了巨大的成功,而这其中,深度学习模型在机器感知任务中的应用功不可没。此外,2012 年以来,由于深度学习模型的复杂程度不断提高,计算能力大涨和可用标记数据的增多,此类系统的再现能力也有了较大进步。

不过在这三个辅助条件中,可用数据集的发展速度并没有跟上模型复杂度(已经从7 层的 AlexNet 进化到了 101 层的 ResNet)和计算能力的提高速度。2011 年时,用于训练 101 层 ResNet 模型的依然是只有 100 万张图片的 ImageNet。因此,研究人员一直有个想法,如果能将训练数据扩容 10 倍,准确率能翻番吗?那么扩容 100 倍或 300 倍又能得到什么样的成果呢?我们能突破现有的准确率平台期吗?数据的增多是否能带来更多突破?

过去五年中,GPU 的计算能力和模型的大小在不断提高,但数据集的规模却在原地踏步

在《重新审视深度学习时代数据的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era)这篇论文中,研究人员先是吹散了围绕在海量数据和深度学习关系周围的迷雾。他们的目标是探寻如下问题:

1. 如果给现有算法源源不断的加标签图片,它们的视觉再现能力会继续提高吗?

2. 在类似分类、目标检测和图像分割等视觉任务中,数据和性能间关系的本质是什么?

3. 在计算视觉应用中,能应对所有问题的顶尖模型是否用到了大规模学习技术呢?

不过,在考虑以上这些问题前,我们先要考虑去哪找这个比 ImageNet 大 300 倍的数据集。谷歌一直在努力搭建这样一个数据集,以便提升计算视觉算法。具体来说,谷歌的数据集 JFT-300M 已经有 3 亿张图片,它们被分为 18291 个大类。负责为这些图片加标签的是一个专用算法,它用到了原始网络信号、网页关系和用户反馈等一系列信息。

完成加标签的工作后,这 3 亿张图片就有了超过 10 亿个标签。而在这些标签中,大约有 3.75 亿个被负责标签精度的算法选了出来。不过即使这样,整个数据集中的标签依然存在不少噪声(noise)。初步估算的数据显示,被选中图片的标签中有 20% 都属于噪声范围,由于缺乏详尽的注释,因此研究人员无法精确判断到底那些标签应该被取消。

进行了一番实验后,研究人员验证了一些假设,同时实验还带来一些意想不到的惊喜:

1. 更好的表征学习辅助效果。实验显示,大规模数据集的使用能提升表征学习的效果,反过来还提高了视觉任务的表现。因此,在开始训练前搭建起一个大规模的数据集还是相当有用的。同时,实验也表明,无监督和半监督表征学习前途无量。此外,只要数据规模起来了,噪声问题就变得不再重要了。

2. 性能会随着训练数据数量级实现线性增长。也许整个实验最惊人的发现就是视觉任务中的性能和用于表征学习的训练数据规模间的关系了。它们之间居然有着异常线性的关系,即使训练图片多达 3 亿张,实验中也没有出现平台期效应。

目标检测性能会随着训练数据的数量级实现线性增长

3. 容量非常重要。在实验中,研究人员还发现,想要充分利用这个巨大的数据集,模型的深度和容量必须足够大。举例来说,ResNet-50 在 COCO 目标检测基准上就只有 1.87%,而 ResNet-152 就有 3%。

4. 新成果。在本篇论文中,研究人员还在 JFT-300M 数据集训练的模型中发现了不少新成果。举例来说,单个模型已经可以达到 37.4 AP,而此前的 COCO 目标检测基准只有 34.3 AP。

需要注意的是,在实验中用到的训练制度、学习安排和参数设置都是基于此前对 ConvNets 训练的理解,当时的数据集还是只有 100 万张图片的 ImageNet。在工作中,研究人员并没有用到超参数的最优组合,因此最终得到的结果可能并不完美,所以数据的真实影响力在这里可能还被低估了。

这项研究并没有将精力集中在特定任务数据上。研究人员相信,未来获取大规模的特定任务数据将成为新的研究重心。

此外,谷歌那个拥有 3 亿张图片的数据集并不是终极目标,随着技术的发展,建设 10 亿+图片数据集的任务应该提上日程了。AI 科技评论表示对此拭目以待。

论文地址:https://arxiv.org/abs/1707.02968

via Google Research,AI 科技评论编译

更多精彩CCF-GAIR大会演讲,请继续关注 AI 科技评论后续报道。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

深度学习:实际问题解决指南

当你想进行预测的时候,使用深度学习要比其他机器学习技术更快更有效。 深度学习是一门快速发展的学科,它将数据中高层次化的模式建模成复杂的多层网络。因为这是建模一个...

18110
来自专栏企鹅号快讯

NEC开发了深度学习自动优化技术、更易于提高识别精度

近日,NEC宣布开发了更易于提高识别精度的深度学习自动优化技术。 以往进行深度学习时,很难基于神经网络构造(注1)进行调整,所以无法在整个网络进行最优化的学习,...

1876
来自专栏机器之心

业界 | 44篇论文强势进击CVPR 2018,商汤科技的研究员都在做哪些研究?

自 2012 年以来,经过视觉领域诸多学者们的不懈努力,「物体识别」、「人脸检测」等传统任务的性能在一定程度上达到饱和,因此纵观本届 979 篇入选论文,我们会...

863
来自专栏CreateAMind

苹果AI论文 SimGANs 代码及详解及自动驾驶的应用

代码:https://github.com/wayaai/SimGAN 下文介绍有不少改进。链接不少是链接到代码。阅读原因可点击相关链接。

883
来自专栏企鹅号快讯

模式识别面临的挑战

2017年11月25日,由模式识别国家重点实验室、中国自动化学会模式识别与机器智能专委会、中国人工智能学会模式识别专委会联合主办的模式识别与人工智能学科前沿研讨...

1837
来自专栏海天一树

人工智能、数据挖掘、机器学习和深度学习的关系

一、人工智能 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统...

3237
来自专栏人工智能快报

全球顶尖人工智能科学家回答网友提问

2016年1月20日,全球最顶尖的人工智能科学家之一、加拿大蒙特利尔大学教授Yoshua Bengio在知名问答社区Quora针对网友的提问给出了自己的一些见解...

3647
来自专栏机器之心

GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

机器之心原创 机器之心编辑部 全球机器智能峰会(GMIS 2017),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请来自美国、欧洲、加拿大及国内的众...

3295
来自专栏大数据和云计算技术

深度学习的历史和趋势

引言: 本文是黄文辉同学的第4篇文章,前面三篇分别是: SparkStreaming窗口操作 sqoop数据导入总结 SparkStreaming入门 最近AI...

3044
来自专栏新智元

文本生成哪家强?上交大提出基准测试新平台 Texygen

来源:arxiv 编译:Marvin 【新智元导读】上海交通大学、伦敦大学学院朱耀明, 卢思迪,郑雷,郭家贤, 张伟楠 , 汪军,俞勇等人的研究团队最新推出Te...

4167

扫描关注云+社区