前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI 技术讲座精选:深度学习是如何改变数据科学范式的?

AI 技术讲座精选:深度学习是如何改变数据科学范式的?

作者头像
AI科技大本营
发布2018-04-26 11:21:18
6070
发布2018-04-26 11:21:18
举报
文章被收录于专栏:AI科技大本营的专栏

【AI100 导读】深度学习正在改变一切。就像电子学和计算机改变了所有的经济活动一样,人工智能将重塑零售、运输、制造、医药、电信、重工业等行业,即使是数据科学本身,也将被其所改变。人工智能的应用范围仍在扩大,并且,在一些复杂任务下,AI 的确比人类做得更好。

在最近的 NIPS 2016 会议上,吴恩达分享了关于深度学习的一些看法。我们在此做一个整理。

深度学习最大的优势在于它的规模,从吴恩达总结的下图可以看出:

当数据量增加时,深度学习模型性能更好。除此之外,神经网络越大(即层数更多,更复杂),它在大数据集下表现的性能就越好,这不同于传统模型,传统模型的性能一旦达到一定水平,即使向模型添加数据或增加模型复杂度,也不一定能提升其性能。

深度学习模型如此强大的另一个原因,是端到端的学习方式。传统模型中特征工程(它包括两个方面:特征选择和特征提取)非常重要。例如,能够对人的声音进行转录的模型,常常需要对输入进行多个中间步骤的处理,如找到音素,正确分段,以及对片段进行单词匹配。

深度学习模型通常不需要特征工程。你可以端到端地训练他们,只需要给模型输入大量例子即可。然而,工程师们在构建模型时也还是要努力的,只不过传统模型侧重于特征提取,而深度学习模型则侧重于模型的架构。数据科学家需要不断的尝试神经元类型、神经网络的层数以及连接的方式等。

构建模型的难点

深度学习模型的构建是一个很大的挑战任务。为了使模型能有较好的性能,在构建的过程中需要做很多决策。一旦走上了错误的路线,就将浪费很多时间和金钱。那么在改善模型性能时,数据科学家如何才能做出明智的决策,给出下一步操作呢?吴恩达向我们展示了他用于开发模型的经典决策框架,不过这次他将其扩展到了其他案例上。

让我们从头开始:在分类任务中(例如,根据扫描图像做出诊断),我们可以从以下三方面得到一些关于模型错误来源的想法:

  1. 人类专家
  2. 训练集
  3. 交叉验证(CV)集(也称为开发集)

一旦我们了解这些错误的来源,数据科学家就可以遵循基本的工作流程,在模型构建中做出有效决策。那么,第一个问题是你的训练集错误率高吗?如果是,那么模型还不够好,你可能需要换一个架构,让模型更复杂一些(例如,更大的神经网络),或者需要更长时间的训练。重复这个过程,直到 bias 降低。

一旦训练集错误率降低,就可以着眼于降低 CV 集错误率。如果 CV 集错误率很大的话,variance 也会很高,这就意味着需要更多的数据,更多的正则化或新的模型架构。剩下的事情就是重复,直到模型在训练集和 CV 集中均有较好性能。

所有这些都不是新东西。然而,深度学习却使它有了一点变化。如果你的模型不是足够好,那么一个办法就是:增加你的数据或使你的模型更复杂。在传统模型中,使用正则化来寻找折中的方法,或者是生成新的特征,然而这并不总是容易的。但是通过深度学习,我们有了更好的工具来减少这两个错误。

人工数据集下的 bias/variance 调优过程

如果大规模数据集的获取不怎么容易的话,替代方法是构建你自己的训练数据集。就拿语音识别系统的训练来说,你可以通过向同一语音样本添加噪声的方式来创建人工数据集。然而,这样构建的训练集与真实数据集的分布会不相同。这种情况下,就需要考虑 bias/variance 折中策略。

想象一下,对语音识别模型,我们有50,000小时的生成数据,但只有100小时的真实数据。在这种情况下,最好的方法是从同一分布中获取 CV 集和测试集。因此,将生成数据集作为训练集,将真实数据集分成 CV 集和测试集两部分。否则,CV 集和测试集将有不同的分布,当模型“完成”时,这个问题就会出现。由于问题是由 CV 集引起的,因此它应该尽可能地接近真实数据集。

在实践中,吴恩达建议将人工数据集分为两部分:训练集和 CV 集(只占很小一部分)。这样,我们将测量以下错误:

(1)和(2)之间的间隔是 bias,(2)和(3)之间是 variance,(3)和(4)之间是由于数据分布不匹配,(4)和(5)之间是因为过拟合。

考虑到这一点,先前的工作流程应该这样修改:

如果分布误差很大,那么修改训练数据分布使其尽可能与测试数据相似。正确理解 bias-variance 问题,可以在机器学习的应用中取得更快进展。

人类最高水平

了解人类的最高水平是非常重要的,因为这将指导如何做决策。事实证明,一旦模型超过了人类的性能,改进将会变得困难,因为我们越来越接近“完美模型”——即没有模型可以做得更好(“贝叶斯模型”)。但传统模式不会有这样的问题,因为它很难在实现超人类水平的性能,但在深度学习中却很常见。

因此,当构建模型时,应以人类最高水平的错误率(这将是“贝叶斯模型”的代表)作参考。例如,如果一个医生团队胜过一个专家团队,那么就使用医生团队的错误率。

我如何成为一个优秀的数据科学家?

多多地阅读论文和重复实验结果是成为一个优秀数据科学家的最佳也是最可靠的路径。这是吴恩达在他的学生身上看到的一种模式,也是我个人觉得不错的模式。

即使你做的全是“dirty work”——清洁数据,调整参数,调试,优化数据库等,也不要停止阅读论文和复现模型,因为复现别人的工作最终会带来原创的思想。

本文作者 Manuel Sánchez Hernández 目前是 Schibsted 的一名数据科学家,就职于 Schibsted 媒体集团。

本文由 AI100 编译,转载需得到本公众号同意。


编译:AI100

原文链接:http://bytes.schibsted.com/deep-learning-changing-data-science-paradigms/


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档