解读 | “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

AI 科技评论按:过去十年里,研究人员在计算视觉领域取得了巨大的成功,而这其中,深度学习模型在机器感知任务中的应用功不可没。此外,2012 年以来,由于深度学习模型的复杂程度不断提高,计算能力大涨和可用标记数据的增多,此类系统的再现能力也有了较大进步。

不过在这三个辅助条件中,可用数据集的发展速度并没有跟上模型复杂度(已经从7 层的 AlexNet 进化到了 101 层的 ResNet)和计算能力的提高速度。2011 年时,用于训练 101 层 ResNet 模型的依然是只有 100 万张图片的 ImageNet。因此,研究人员一直有个想法,如果能将训练数据扩容 10 倍,准确率能翻番吗?那么扩容 100 倍或 300 倍又能得到什么样的成果呢?我们能突破现有的准确率平台期吗?数据的增多是否能带来更多突破?

过去五年中,GPU 的计算能力和模型的大小在不断提高,但数据集的规模却在原地踏步

在《重新审视深度学习时代数据的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era)这篇论文中,研究人员先是吹散了围绕在海量数据和深度学习关系周围的迷雾。他们的目标是探寻如下问题:

1. 如果给现有算法源源不断的加标签图片,它们的视觉再现能力会继续提高吗?

2. 在类似分类、目标检测和图像分割等视觉任务中,数据和性能间关系的本质是什么?

3. 在计算视觉应用中,能应对所有问题的顶尖模型是否用到了大规模学习技术呢?

不过,在考虑以上这些问题前,我们先要考虑去哪找这个比 ImageNet 大 300 倍的数据集。谷歌一直在努力搭建这样一个数据集,以便提升计算视觉算法。具体来说,谷歌的数据集 JFT-300M 已经有 3 亿张图片,它们被分为 18291 个大类。负责为这些图片加标签的是一个专用算法,它用到了原始网络信号、网页关系和用户反馈等一系列信息。

完成加标签的工作后,这 3 亿张图片就有了超过 10 亿个标签。而在这些标签中,大约有 3.75 亿个被负责标签精度的算法选了出来。不过即使这样,整个数据集中的标签依然存在不少噪声(noise)。初步估算的数据显示,被选中图片的标签中有 20% 都属于噪声范围,由于缺乏详尽的注释,因此研究人员无法精确判断到底那些标签应该被取消。

进行了一番实验后,研究人员验证了一些假设,同时实验还带来一些意想不到的惊喜:

1. 更好的表征学习辅助效果。实验显示,大规模数据集的使用能提升表征学习的效果,反过来还提高了视觉任务的表现。因此,在开始训练前搭建起一个大规模的数据集还是相当有用的。同时,实验也表明,无监督和半监督表征学习前途无量。此外,只要数据规模起来了,噪声问题就变得不再重要了。

2. 性能会随着训练数据数量级实现线性增长。也许整个实验最惊人的发现就是视觉任务中的性能和用于表征学习的训练数据规模间的关系了。它们之间居然有着异常线性的关系,即使训练图片多达 3 亿张,实验中也没有出现平台期效应。

目标检测性能会随着训练数据的数量级实现线性增长

3. 容量非常重要。在实验中,研究人员还发现,想要充分利用这个巨大的数据集,模型的深度和容量必须足够大。举例来说,ResNet-50 在 COCO 目标检测基准上就只有 1.87%,而 ResNet-152 就有 3%。

4. 新成果。在本篇论文中,研究人员还在 JFT-300M 数据集训练的模型中发现了不少新成果。举例来说,单个模型已经可以达到 37.4 AP,而此前的 COCO 目标检测基准只有 34.3 AP。

需要注意的是,在实验中用到的训练制度、学习安排和参数设置都是基于此前对 ConvNets 训练的理解,当时的数据集还是只有 100 万张图片的 ImageNet。在工作中,研究人员并没有用到超参数的最优组合,因此最终得到的结果可能并不完美,所以数据的真实影响力在这里可能还被低估了。

这项研究并没有将精力集中在特定任务数据上。研究人员相信,未来获取大规模的特定任务数据将成为新的研究重心。

此外,谷歌那个拥有 3 亿张图片的数据集并不是终极目标,随着技术的发展,建设 10 亿+图片数据集的任务应该提上日程了。AI 科技评论表示对此拭目以待。

论文地址:https://arxiv.org/abs/1707.02968

via Google Research,AI 科技评论编译

更多精彩CCF-GAIR大会演讲,请继续关注 AI 科技评论后续报道。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 学习一帧,为整段黑白视频上色:谷歌提出自监督视觉追踪模型

在谷歌最近提交的论文《Tracking Emerges by Colorizing Videos》中,研究人员引入了一种为灰度视频着色的卷积神经网络,但它只需要...

903
来自专栏计算机视觉战队

深度学习的昨天、今天和明天

机器学习是人工智能领域的一个重要学科。 自从20世纪80年代以来, 机器学习在算法、理论和应用等方面都获得巨大成功。2006年以来, 机器学习领域中一个叫“ 深...

1237
来自专栏AI科技评论

学界 | 好奇心驱动学习,让强化学习更简单

雷锋网 AI 科技评论按:强化学习在最近几年中都是最热门的研究领域之一,但是复杂环境中难以训练、训练后难以泛化的问题始终没有得到完全的解决。好奇心驱动的学习是一...

643
来自专栏AI研习社

Arxiv Insights | 克服稀疏奖励的束缚,让智能体在学习中成长

在强化学习的设置中,为了执行一个我们想学习的任务,智能体会应用一些特征提取方案来从原始数据中提取有用信息,然后会有一个策略网络用于提取特征。

1171
来自专栏机器之心

学界 | MINIEYE首席科学家吴建鑫解读ICCV入选论文:用于网络压缩的滤波器级别剪枝算法ThiNet

机器之心报道 作者:高静宜 近日,南京大学计算机科学与技术系教授、MINIEYE 首席科学家吴建鑫所在团队的一篇论文《ThiNet: 一种用于深度神经网络压缩的...

3598
来自专栏量子位

三角兽首席科学家分享实录:基于对抗学习的生成式对话模型

主讲人:三角兽首席科学家 王宝勋 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 对抗学习和对话系统都是近年来的新热点。今年7月,三角兽研究组与哈工大I...

3506
来自专栏机器之心

CVPR2018 | 直接建模视觉智能体?让「小狗」动起来~

选自arXiv 作者:Kiana Ehsani 等 机器之心编译 参与:Pedro、路 近日,来自华盛顿大学和艾伦人工智能研究所的研究者在 arXiv 上发布论...

3516
来自专栏AI科技大本营的专栏

OpenAI NLP最新进展:通过无监督学习提升语言理解

【AI 科技大本营导读】近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统。这个系统是可扩展的、与任务无关的,并且在一系列不同的 N...

943
来自专栏新智元

【新华网】新算法让机器像婴儿一样学习视觉世界

【新智元导读】 美国科学家日前报告说,他们从人类大脑的学习方式中获得灵感,研发出一种新的“深度学习”算法,可以让机器像人类婴儿一样自主学习视觉世界。 新华社洛杉...

3425
来自专栏机器之心

模拟世界的模型:谷歌大脑与Jürgen Schmidhuber提出「人工智能梦境」

选自arXiv 作者:David Ha、Jürgen Schmidhuber 机器之心编译 人类可以在应对各种情况时在大脑中事先进行充分思考,那么人工智能也可以...

3158

扫码关注云+社区