数据规模的增大促进了机器学习的发展

4 数据规模的增大促进了机器学习的发展

深度学习(神经网络)中许多的想法都已经存在了几十年。为什么今天这些想法火起来了呢? 促进机器学习发展的因素主要有两个: • 数据量越来越多. 如今人们在数字设备(电脑,移动设备)上所花费的时间相比以前多得多,这些活动产生了大量的数据,我们可以使用这些数据来训练我们的算法。 • 计算能力的提升. 人类几年前才开始训练神经网络,而且这些神经网络都足够大,可以将现在的大数据作为输入。 具体来说,如果你使用的是传统的机器学习算法(如:逻辑回归),即使你拥有更大的数据量,也会出现“高原效应(plateaus)”。也就是说即使你给它更多的数据,它的学习曲线也会变得平坦(flattens out),算法就不会再有很明显的提升了:

这就好像是传统算法不知道该怎么处理我们所拥有的全部数据。

如果你在面对监督学习任务时训练了一个小型的神经网络,可能你会获得相对较好效果:

这里,“小型神经网络(small NN)”是指具有较少的隐层神经元/层/参数。你训练的神经网络越大,性能就会越好。[1]

因此,如果你想获得较好的性能,你需要: (1)训练一个较大的神经网络。 (2)拥有大量的数据。

还有很多其它的细节也是非常重要的,如神经网络的架构,在这方面的创新目前也是非常多的。但是想提高你算法的性能最可靠的方法还是: (1)训练一个较大的神经网络。 (2)拥有大量的数据。

[1] 这个图展示了神经网络在数量较少的数据集上也能有不错的效果(前半部分)。神经网络在大数据中展现的效果很好,但是在小数据集上就不一定了。在小数据集中,可能传统算法会做的更好,这取决于特征的选择。比如,你只有20个训练样本,那么你使用logistic regression或神经网络可能没有什么区别,主要是特征的选择对算法结果造成的影响较大。但是,如果你拥有100万的数据量,那我更倾向使用神经网络。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

OpenAI:通过无监督学习提高语言理解能力

研究者通过一个可扩展的,与任务无关的系统获得了一系列不同语言任务的最新成果,这一系统也即将发布。此方法结合了两种现有的想法:Transformer和无监督的预训...

1244
来自专栏机器之心

学界 | 斯坦福大学&DeepMind联合提出机器人控制新方法,RL+IL端到端地学习视觉运动策略

选自arXiv 作者:朱玉可等 机器之心编译 参与:路雪、思源 近日,来自斯坦福大学&DeepMind 的研究者提出一种学习机器人深度视觉运动策略的新方法,它结...

2785
来自专栏程序你好

机器学习 vs. 深度学习

在这篇文章中,我们将研究深度学习和机器学习的对比。我们也将分别学习它们。我们还将讨论他们在不同问题上的分歧。在进行深度学习和机器学习比较的同时,我们也会研究它们...

1142
来自专栏应兆康的专栏

4. 数据规模的增大促进了机器学习的发展

深度学习(神经网络)中许多的想法都已经存在了几十年。为什么今天这些想法火起来了呢? 促进机器学习发展的因素主要有两个: • 数据量越来越多. 如今人们在数字设备...

3696
来自专栏人工智能

看完这些你就明白,机器学习和深度学习的根本区别了

深度学习是什么? 在深度学习中,计算机模型学习直接从图像、文本或声音中执行分类任务。深度学习模式可以达到新的精确度,有时甚至超过人类的表现。大多数深度学习方法使...

4938
来自专栏奇点大数据

机器学习和深度学习的区别

近来有一些朋友问我,深度学习是不是算机器学习,如果是为什么一定要单拿出来算一个概念,那我在这就说说我的理解。 首先,深度学习确实仍然是依靠机器来做学习的不管是监...

3276
来自专栏企鹅号快讯

人工智能与机器学习有哪些不同

每天读一篇一线开发者原创好文 来自:51CTO.COM,作者:RickyHo,刘妮娜译 链接:http://network.51cto.com/art/2017...

2850
来自专栏机器之心

观点 | 在工程领域中,机器学习的数学理论基础尤为重要

近期研究人员越来越多地关注将机器学习方法应用到科学、工程应用中。这主要是受自然语言处理(NLP)和图像分类(IC)[3] 领域近期发展的影响。但是,科学和工程问...

621
来自专栏机器之心

学界 | 最大规模数据集、最优图像识别准确率!Facebook利用hashtag解决训练数据难题

2065
来自专栏AI科技评论

干货 | 康奈尔博士后黄高:如何设计高效地卷积神经网络

AI 科技评论按:卷积神经网络则是深度学习最具代表性的模型,在计算机视觉和自然语言翻译等领域有着极其广泛的应用。随着精度以及复杂度的逐步提升,卷积网络的推理效率...

44511

扫码关注云+社区

领取腾讯云代金券