解读 | “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

AI 科技评论按:过去十年里,研究人员在计算视觉领域取得了巨大的成功,而这其中,深度学习模型在机器感知任务中的应用功不可没。此外,2012 年以来,由于深度学习模型的复杂程度不断提高,计算能力大涨和可用标记数据的增多,此类系统的再现能力也有了较大进步。

不过在这三个辅助条件中,可用数据集的发展速度并没有跟上模型复杂度(已经从7 层的 AlexNet 进化到了 101 层的 ResNet)和计算能力的提高速度。2011 年时,用于训练 101 层 ResNet 模型的依然是只有 100 万张图片的 ImageNet。因此,研究人员一直有个想法,如果能将训练数据扩容 10 倍,准确率能翻番吗?那么扩容 100 倍或 300 倍又能得到什么样的成果呢?我们能突破现有的准确率平台期吗?数据的增多是否能带来更多突破?

过去五年中,GPU 的计算能力和模型的大小在不断提高,但数据集的规模却在原地踏步

在《重新审视深度学习时代数据的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era)这篇论文中,研究人员先是吹散了围绕在海量数据和深度学习关系周围的迷雾。他们的目标是探寻如下问题:

1. 如果给现有算法源源不断的加标签图片,它们的视觉再现能力会继续提高吗?

2. 在类似分类、目标检测和图像分割等视觉任务中,数据和性能间关系的本质是什么?

3. 在计算视觉应用中,能应对所有问题的顶尖模型是否用到了大规模学习技术呢?

不过,在考虑以上这些问题前,我们先要考虑去哪找这个比 ImageNet 大 300 倍的数据集。谷歌一直在努力搭建这样一个数据集,以便提升计算视觉算法。具体来说,谷歌的数据集 JFT-300M 已经有 3 亿张图片,它们被分为 18291 个大类。负责为这些图片加标签的是一个专用算法,它用到了原始网络信号、网页关系和用户反馈等一系列信息。

完成加标签的工作后,这 3 亿张图片就有了超过 10 亿个标签。而在这些标签中,大约有 3.75 亿个被负责标签精度的算法选了出来。不过即使这样,整个数据集中的标签依然存在不少噪声(noise)。初步估算的数据显示,被选中图片的标签中有 20% 都属于噪声范围,由于缺乏详尽的注释,因此研究人员无法精确判断到底那些标签应该被取消。

进行了一番实验后,研究人员验证了一些假设,同时实验还带来一些意想不到的惊喜:

1. 更好的表征学习辅助效果。实验显示,大规模数据集的使用能提升表征学习的效果,反过来还提高了视觉任务的表现。因此,在开始训练前搭建起一个大规模的数据集还是相当有用的。同时,实验也表明,无监督和半监督表征学习前途无量。此外,只要数据规模起来了,噪声问题就变得不再重要了。

2. 性能会随着训练数据数量级实现线性增长。也许整个实验最惊人的发现就是视觉任务中的性能和用于表征学习的训练数据规模间的关系了。它们之间居然有着异常线性的关系,即使训练图片多达 3 亿张,实验中也没有出现平台期效应。

目标检测性能会随着训练数据的数量级实现线性增长

3. 容量非常重要。在实验中,研究人员还发现,想要充分利用这个巨大的数据集,模型的深度和容量必须足够大。举例来说,ResNet-50 在 COCO 目标检测基准上就只有 1.87%,而 ResNet-152 就有 3%。

4. 新成果。在本篇论文中,研究人员还在 JFT-300M 数据集训练的模型中发现了不少新成果。举例来说,单个模型已经可以达到 37.4 AP,而此前的 COCO 目标检测基准只有 34.3 AP。

需要注意的是,在实验中用到的训练制度、学习安排和参数设置都是基于此前对 ConvNets 训练的理解,当时的数据集还是只有 100 万张图片的 ImageNet。在工作中,研究人员并没有用到超参数的最优组合,因此最终得到的结果可能并不完美,所以数据的真实影响力在这里可能还被低估了。

这项研究并没有将精力集中在特定任务数据上。研究人员相信,未来获取大规模的特定任务数据将成为新的研究重心。

此外,谷歌那个拥有 3 亿张图片的数据集并不是终极目标,随着技术的发展,建设 10 亿+图片数据集的任务应该提上日程了。AI 科技评论表示对此拭目以待。

论文地址:https://arxiv.org/abs/1707.02968

via Google Research,AI 科技评论编译

更多精彩CCF-GAIR大会演讲,请继续关注 AI 科技评论后续报道。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

洞见 | 香港科技大学杨强教授专注研究的这项新兴技术,说不定能造就真正的“智能”

迁移学习,简单的说,就是能让现有的模型算法稍加调整即可应用于一个新的领域和功能的一项技术。这个概念目前在机器学习中其实比较少见,但其实它的潜力可以相当巨大。杨强...

2675
来自专栏机器之心

学界 | MINIEYE首席科学家吴建鑫解读ICCV入选论文:用于网络压缩的滤波器级别剪枝算法ThiNet

机器之心报道 作者:高静宜 近日,南京大学计算机科学与技术系教授、MINIEYE 首席科学家吴建鑫所在团队的一篇论文《ThiNet: 一种用于深度神经网络压缩的...

3808
来自专栏AI科技评论

学界 | 好奇心驱动学习,让强化学习更简单

雷锋网 AI 科技评论按:强化学习在最近几年中都是最热门的研究领域之一,但是复杂环境中难以训练、训练后难以泛化的问题始终没有得到完全的解决。好奇心驱动的学习是一...

723
来自专栏计算机视觉战队

深度学习的昨天、今天和明天

机器学习是人工智能领域的一个重要学科。 自从20世纪80年代以来, 机器学习在算法、理论和应用等方面都获得巨大成功。2006年以来, 机器学习领域中一个叫“ 深...

703
来自专栏ATYUN订阅号

在机器学习项目中,如何使预测建模问题的数据收益最大化

预测建模的成功与否,可能取决于你使用的数据,以及你使用这些数据的方法。问题的数据和框架可能是你完成项目的最大筹码。

763
来自专栏计算机视觉战队

深度学习的昨天、今天和明天

机器学习是人工智能领域的一个重要学科。 自从20世纪80年代以来, 机器学习在算法、理论和应用等方面都获得巨大成功。2006年以来, 机器学习领域中一个叫“ 深...

3354
来自专栏新智元

【深度解密】量子机器学习的研究进展

作者是来自英国布里斯托大学的量子工程中心研究员,布里斯托大学在量子力学和量子计算方面有很强的建树,诺贝尔物理学奖获得者、量子力学的奠基者之一保罗·狄拉克,中国科...

65510
来自专栏新智元

【新华网】新算法让机器像婴儿一样学习视觉世界

【新智元导读】 美国科学家日前报告说,他们从人类大脑的学习方式中获得灵感,研发出一种新的“深度学习”算法,可以让机器像人类婴儿一样自主学习视觉世界。 新华社洛杉...

3455
来自专栏AI科技评论

干货 | 清华博士生孙奕帆:行人再识别论文介绍及最新进展

AI 科技评论按:提到计算机视觉领域的研究,大家可能最先想到的是人脸识别,其实还有一个更为实用的研究应用——行人再识别。行人再识别是利用计算机视觉技术在图像或视...

3565
来自专栏ATYUN订阅号

有这好事?神经网络模型Word2vec竟能根据个人喜好推荐音乐

? 每一个点代表一首歌。分数越接近,歌曲就越相似 流媒体服务已经改变了我们体验内容的方式。虽然推荐系统以前专注于向用户展示你可能想要购买的内容,但现在的流媒体...

52619

扫码关注云+社区