学界 | 百度研究院:都知道数据越多越好,现在我们还能预测增加了数据以后具体有多好

AI 科技评论按:在深度学习界,「数据越多,模型表现就越好」是大家公认的规律,不过很多时候我们都不太清楚具体的「增加多少数据,能带来多大提升」。前几个月谷歌的一项大规模实验就有力地(甚至令人害怕地)证明了即便数据已经很多的情况下仍然「数据越多越好」,这次百度研究院的大规模研究就定量地分析了「增加的数据能带来多大提升」,得到的结果还可以用于预测面向实际问题的模型的表现,可以说是非常实在了。AI 科技评论把百度研究院的这篇成果介绍文章编译如下。

这是一个数字世界和其中的数据以前所未有的速度增加的时代,增加速度甚至超过了计算能力的增加速度。在深度学习的帮助下,我们可以快速地从海量的数据中获取有价值的信息,并且带给我们带有人工智能的产品和使用体验。

为了能够持续地提升用户体验,深度学习科学家和开发人员们就要着眼于现有的以及不断新出现的应用场景,快速地改进深度学习模型。研究新的模型架构当然能带来重大改进,但这方面的研究往往需要的是灵感闪现;大的突破常常需要为建模问题建立复杂的新框架,测试它的效果也还要再花几周到几个月的时间。

如果除了研究新的模型结构之外,我们还能有更可靠的方法提升模型的准确率就好了。

我们能提前知道更多数据会带来多大的提升吗?

百度研究院近日发布的一项大规模研究报告就表明,随着训练数据的增多,深度学习模型的准确率也有可预期的提高。通过实际实验,百度研究院的研究员们发现,只要有足够的训练数据和计算资源,那么训练大模型时随着规模提升带来的准确率提升就是可以预期的。在百度研究院研究的机器翻译、语言建模、图像分类、语音识别四个应用领域中,在众多的顶尖模型上都能看到这样的结果。

更具体地来说,百度研究院的研究结果表明,对于他们用来衡量模型在新样本上的表现的「泛化误差」指标,错误率的指数基本随着训练数据的指数线性下降。之前有一些理论研究也同样得到了这样的对数下降关系。然而,那些成果预测出的学习曲线都很「陡峭」,就是说幂公式的指数是-0.5,这意味着深度学习模型应当能学习得很快。百度研究院从大量实验中采集的学习曲线表明这个指数应当在 [-035,-0.07] 这个范围内,就是说真实世界的模型从真实世界的数据中学习的速度要比理论预测得要慢得多。

语言建模模型上的实验结果就展现出,随着训练数据的增加,错误率的指数基本随着训练数据的指数线性下降(注意横轴纵轴都是对数坐标)

对于语言建模任务,百度研究院在 Billion Word 数据集的子集上测试了 LSTM 和 RHN 模型。上方的图中显示的就是不同数据量下每个架构模型的最佳验证误差(作为泛化误差的近似)。图中几条曲线都可以根据指数关系进行预测,甚至连幂公式中的指数都惊人地一致。对于很大的训练数据集,模型的表现会稍微偏离曲线一点,但是百度研究院的研究人员们同时发现如果优化超参数就往往可以让模型表现回到曲线上来。

「有尽头」、「可预测」的学习

模型预测误差的改进从「最可能的猜测」开始,沿着指数关系下降,最终来到「无法消除的误差」。

更广泛地说,百度研究院实际实验得到的结果表明,学习曲线基本会是这样的形式的:

实际应用中成指数关系的学习曲线(横轴纵轴仍然都是对数坐标)

从这张示意图中可以看到,与训练数据数量的指数成线性关系的这一段把学习曲线分成了不同阶段。一开始是小数据阶段,模型只有很少的训练数据;在这个阶段,模型的表现就和瞎猜差不多,只是看猜得稍微有点谱还是完全瞎猜。学习曲线上中间的这部分就是符合刚才说到的指数关系的一部分,这里每一张新增加的训练样本都能给模型提供有用的信息,提高模型分辨从未见过的样本的能力。幂公式中的指数就决定了这一阶段的线条的斜率(对数-对数坐标下)。从这个指数上也可以看到理解训练数据的难度。最后,对于大多数的真实世界应用来说,最终都会有一个不为零的错误率下限,模型表现只能无限接近这个下限,无法进一步降低错误率(百度研究院的实验中,用于解决真实问题的模型还尚未接近这个下限,不过简单问题上的实验中已经清洗显示出了这个下限)。这种无法消除的错误率就来自真实世界数据中种种因素的组合。

综合了所有模型的测试结果,百度研究院得到的结论是:

  • 指数关系的学习率曲线在所有的用途、所有的模型架构、所有的优化器、所有的损失函数中都会出现;
  • 非常惊人的是,对于同一种模型用途,不同的模型架构和优化器却表现出了同样的指数关系。这里,随着训练数据集增大,不同的模型的学习率有着相同的相对增长率。
  • 对于不同数量的训练数据,最适合的模型大小(以参数数目衡量)是随着数据的数目次线性增加的。其中的关系同样可以通过实验描述,然后用于未来的预测。

百度研究院希望这些研究成果可以在深度学习大家庭中引发更多的讨论,让大家更多地思考有哪些可以帮助深度学习快速提高的方法。对于深度学习研究者来说,学习率也可以帮助 debug 模型,并且预测改进模型结构之后的准确率目标。学习曲线中的指数也还有很大空间做进一步的理论预测或者解释。另外,可预测的学习曲线也可以帮助决定要不要增多训练数据、如何设计和拓展计算系统,这实际上都体现了不断提升计算规模的重要性。

论文地址:https://arxiv.org/abs/1712.00409

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-12-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【算法】机器学习和数据科学最常用到的TOP10算法

数据科学的实践,需要使用算法和数据科学方法,来帮助数据专业人员从数据中提取洞察力和价值。Kaggle最近的一项调查显示,数据专家在2017年比其他数据科学方法更...

36040
来自专栏大数据文摘

业界 | 图像识别的未来:机遇与挑战并存

在计算机视觉领域,图像识别这几年的发展突飞猛进,但在进一步广泛应用之前,仍然有很多挑战需要我们去解决。本文中,微软亚洲研究院视觉计算组的研究员们为我们梳理目前深...

26220
来自专栏AI科技评论

干货 | “回归分析”真的算是“机器学习”吗?

是什么将“统计”从“机器学习”中分离出来的?个被讨论过无数次的问题。关于这个问题的文章有很多,人们对其好坏莫衷一是。但是我发现,在“统计”和“机器学习”的争论上...

33870
来自专栏计算机视觉战队

深度学习的昨天、今天和明天

机器学习是人工智能领域的一个重要学科。 自从20世纪80年代以来, 机器学习在算法、理论和应用等方面都获得巨大成功。2006年以来, 机器学习领域中一个叫“ 深...

18570
来自专栏专知

概念理解:通俗的“过拟合与欠拟合”直观解释

【导读】前几天,应用数据科学研究者William Koehrsen发布一篇关于“过度拟合和拟合不足”的博文,作者解释了在模型训练中过拟合与欠拟合的概念与原因,并...

38160
来自专栏机器学习算法与Python学习

机器学习(36)之协同过滤典型算法概述【精华】

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 推荐算法具有非常多的应用场景和...

55360
来自专栏周景超的专栏

腾讯 AI Lab 计算机视觉中心人脸 & OCR团队近期成果介绍(3)

在上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享。

56520
来自专栏AI研习社

Arxiv Insights | 克服稀疏奖励的束缚,让智能体在学习中成长

在强化学习的设置中,为了执行一个我们想学习的任务,智能体会应用一些特征提取方案来从原始数据中提取有用信息,然后会有一个策略网络用于提取特征。

20510
来自专栏PaddlePaddle

【PaddlePaddle视频新课】之语义角色标注

PaddlePaddle之语义角色标注 http://bit.baidu.com/course/detail/id/178/column/117.html

10520
来自专栏机器学习算法原理与实践

协同过滤推荐算法总结

    推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤...

33920

扫码关注云+社区

领取腾讯云代金券