解读 | “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

AI 科技评论按:过去十年里,研究人员在计算视觉领域取得了巨大的成功,而这其中,深度学习模型在机器感知任务中的应用功不可没。此外,2012 年以来,由于深度学习模型的复杂程度不断提高,计算能力大涨和可用标记数据的增多,此类系统的再现能力也有了较大进步。

不过在这三个辅助条件中,可用数据集的发展速度并没有跟上模型复杂度(已经从7 层的 AlexNet 进化到了 101 层的 ResNet)和计算能力的提高速度。2011 年时,用于训练 101 层 ResNet 模型的依然是只有 100 万张图片的 ImageNet。因此,研究人员一直有个想法,如果能将训练数据扩容 10 倍,准确率能翻番吗?那么扩容 100 倍或 300 倍又能得到什么样的成果呢?我们能突破现有的准确率平台期吗?数据的增多是否能带来更多突破?

过去五年中,GPU 的计算能力和模型的大小在不断提高,但数据集的规模却在原地踏步

在《重新审视深度学习时代数据的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era)这篇论文中,研究人员先是吹散了围绕在海量数据和深度学习关系周围的迷雾。他们的目标是探寻如下问题:

1. 如果给现有算法源源不断的加标签图片,它们的视觉再现能力会继续提高吗?

2. 在类似分类、目标检测和图像分割等视觉任务中,数据和性能间关系的本质是什么?

3. 在计算视觉应用中,能应对所有问题的顶尖模型是否用到了大规模学习技术呢?

不过,在考虑以上这些问题前,我们先要考虑去哪找这个比 ImageNet 大 300 倍的数据集。谷歌一直在努力搭建这样一个数据集,以便提升计算视觉算法。具体来说,谷歌的数据集 JFT-300M 已经有 3 亿张图片,它们被分为 18291 个大类。负责为这些图片加标签的是一个专用算法,它用到了原始网络信号、网页关系和用户反馈等一系列信息。

完成加标签的工作后,这 3 亿张图片就有了超过 10 亿个标签。而在这些标签中,大约有 3.75 亿个被负责标签精度的算法选了出来。不过即使这样,整个数据集中的标签依然存在不少噪声(noise)。初步估算的数据显示,被选中图片的标签中有 20% 都属于噪声范围,由于缺乏详尽的注释,因此研究人员无法精确判断到底那些标签应该被取消。

进行了一番实验后,研究人员验证了一些假设,同时实验还带来一些意想不到的惊喜:

1. 更好的表征学习辅助效果。实验显示,大规模数据集的使用能提升表征学习的效果,反过来还提高了视觉任务的表现。因此,在开始训练前搭建起一个大规模的数据集还是相当有用的。同时,实验也表明,无监督和半监督表征学习前途无量。此外,只要数据规模起来了,噪声问题就变得不再重要了。

2. 性能会随着训练数据数量级实现线性增长。也许整个实验最惊人的发现就是视觉任务中的性能和用于表征学习的训练数据规模间的关系了。它们之间居然有着异常线性的关系,即使训练图片多达 3 亿张,实验中也没有出现平台期效应。

目标检测性能会随着训练数据的数量级实现线性增长

3. 容量非常重要。在实验中,研究人员还发现,想要充分利用这个巨大的数据集,模型的深度和容量必须足够大。举例来说,ResNet-50 在 COCO 目标检测基准上就只有 1.87%,而 ResNet-152 就有 3%。

4. 新成果。在本篇论文中,研究人员还在 JFT-300M 数据集训练的模型中发现了不少新成果。举例来说,单个模型已经可以达到 37.4 AP,而此前的 COCO 目标检测基准只有 34.3 AP。

需要注意的是,在实验中用到的训练制度、学习安排和参数设置都是基于此前对 ConvNets 训练的理解,当时的数据集还是只有 100 万张图片的 ImageNet。在工作中,研究人员并没有用到超参数的最优组合,因此最终得到的结果可能并不完美,所以数据的真实影响力在这里可能还被低估了。

这项研究并没有将精力集中在特定任务数据上。研究人员相信,未来获取大规模的特定任务数据将成为新的研究重心。

此外,谷歌那个拥有 3 亿张图片的数据集并不是终极目标,随着技术的发展,建设 10 亿+图片数据集的任务应该提上日程了。AI 科技评论表示对此拭目以待。

论文地址:https://arxiv.org/abs/1707.02968

via Google Research,AI 科技评论编译

更多精彩CCF-GAIR大会演讲,请继续关注 AI 科技评论后续报道。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【斯坦福大学吴恩达博士生Ziang Xie】深度文本生成最佳实战指南(附指南下载)

【导读】人们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可...

5947
来自专栏机器之心

ACL 2018 | 问答模型真的理解问题吗:归因分析可轻松构造对抗问题样本

1363
来自专栏AI科技大本营的专栏

AI 每周必读:The Ones

【AI100 导读】本周的 The Ones 为大家推荐了一篇 GAN 在 Chatbot 领域应用的 paper,一个基于 matlab 的深度学习框架 Li...

3158
来自专栏大数据文摘

怎样找到一份深度学习的工作 | 附学习材料,资源与建议

1664
来自专栏新智元

机器学习理解视频重点,微软视觉智能技术突破

【新智元导读】台湾国立清华大学与微软合作,首次实现了让机器自动生成视频标题。与生成视频描述不同,生成标题需要理解视频内容,抓住重点,用自然语言给出吸引人的概括(...

37014
来自专栏AI科技评论

前沿 | 罗切斯特大学最新研究成果:AI可以预测我们说什么

大多数的人可以对自己将要说的话做到完全保密,直到他们张嘴说话的那一秒。但是现在,计算机可以通过寻找你的大脑中与你将要说的话相关的大脑活动形式,迅速地预测你在想什...

2665
来自专栏新智元

效果惊艳!FAIR提出人体姿势估计新模型,升级版Mask-RCNN

来源:densepose.org 【新智元导读】FAIR和INRIA的合作研究提出一个在Mask-RCNN基础上改进的密集人体姿态评估模型DensePose-R...

38713
来自专栏专知

【下载】最新TensorFlow专业深度学习实战书籍和代码《Pro Deep Learning with TensorFlow》

【导读】通用电气公司高级数据科学家Santanu Pattanayak撰写的TensorFlow专业深度学习实战《Pro Deep Learning with ...

4776
来自专栏机器人网

反向传播算法或将被抛弃, 深度学习需另辟途径?

当年的神经系统还不如现如今这般流行,所有的研究都只是深度学习,而那时候我们就已经在思考一个问题:深度学习依赖的反向传播算法 (back-prop) 显然是很不容...

2605
来自专栏人工智能

2017年深度学习领域阅读量最高的11篇文章

来源:Analytics Vidhya 智能观 编译 【智能观】本文是国外知名技术网站Analytics Vidhya总结的11篇深度学习领域最佳文章,如果你还...

2128

扫码关注云+社区