AI 技术讲座精选：深度学习是如何改变数据科学范式的？

AI科技大本营

发布于 2018-04-26 11:21:18

6070

发布于 2018-04-26 11:21:18

【AI100 导读】深度学习正在改变一切。就像电子学和计算机改变了所有的经济活动一样，人工智能将重塑零售、运输、制造、医药、电信、重工业等行业，即使是数据科学本身，也将被其所改变。人工智能的应用范围仍在扩大，并且，在一些复杂任务下，AI 的确比人类做得更好。

在最近的 NIPS 2016 会议上，吴恩达分享了关于深度学习的一些看法。我们在此做一个整理。

深度学习最大的优势在于它的规模，从吴恩达总结的下图可以看出：

当数据量增加时，深度学习模型性能更好。除此之外，神经网络越大（即层数更多，更复杂），它在大数据集下表现的性能就越好，这不同于传统模型，传统模型的性能一旦达到一定水平，即使向模型添加数据或增加模型复杂度，也不一定能提升其性能。

深度学习模型如此强大的另一个原因，是端到端的学习方式。传统模型中特征工程（它包括两个方面：特征选择和特征提取）非常重要。例如，能够对人的声音进行转录的模型，常常需要对输入进行多个中间步骤的处理，如找到音素，正确分段，以及对片段进行单词匹配。

深度学习模型通常不需要特征工程。你可以端到端地训练他们，只需要给模型输入大量例子即可。然而，工程师们在构建模型时也还是要努力的，只不过传统模型侧重于特征提取，而深度学习模型则侧重于模型的架构。数据科学家需要不断的尝试神经元类型、神经网络的层数以及连接的方式等。

构建模型的难点

深度学习模型的构建是一个很大的挑战任务。为了使模型能有较好的性能，在构建的过程中需要做很多决策。一旦走上了错误的路线，就将浪费很多时间和金钱。那么在改善模型性能时，数据科学家如何才能做出明智的决策，给出下一步操作呢？吴恩达向我们展示了他用于开发模型的经典决策框架，不过这次他将其扩展到了其他案例上。

让我们从头开始：在分类任务中（例如，根据扫描图像做出诊断），我们可以从以下三方面得到一些关于模型错误来源的想法：

人类专家
训练集
交叉验证（CV）集（也称为开发集）

一旦我们了解这些错误的来源，数据科学家就可以遵循基本的工作流程，在模型构建中做出有效决策。那么，第一个问题是你的训练集错误率高吗？如果是，那么模型还不够好，你可能需要换一个架构，让模型更复杂一些（例如，更大的神经网络），或者需要更长时间的训练。重复这个过程，直到 bias 降低。

一旦训练集错误率降低，就可以着眼于降低 CV 集错误率。如果 CV 集错误率很大的话，variance 也会很高，这就意味着需要更多的数据，更多的正则化或新的模型架构。剩下的事情就是重复，直到模型在训练集和 CV 集中均有较好性能。

所有这些都不是新东西。然而，深度学习却使它有了一点变化。如果你的模型不是足够好，那么一个办法就是：增加你的数据或使你的模型更复杂。在传统模型中，使用正则化来寻找折中的方法，或者是生成新的特征，然而这并不总是容易的。但是通过深度学习，我们有了更好的工具来减少这两个错误。

人工数据集下的 bias/variance 调优过程

如果大规模数据集的获取不怎么容易的话，替代方法是构建你自己的训练数据集。就拿语音识别系统的训练来说，你可以通过向同一语音样本添加噪声的方式来创建人工数据集。然而，这样构建的训练集与真实数据集的分布会不相同。这种情况下，就需要考虑 bias/variance 折中策略。

想象一下，对语音识别模型，我们有50,000小时的生成数据，但只有100小时的真实数据。在这种情况下，最好的方法是从同一分布中获取 CV 集和测试集。因此，将生成数据集作为训练集，将真实数据集分成 CV 集和测试集两部分。否则，CV 集和测试集将有不同的分布，当模型“完成”时，这个问题就会出现。由于问题是由 CV 集引起的，因此它应该尽可能地接近真实数据集。

在实践中，吴恩达建议将人工数据集分为两部分：训练集和 CV 集（只占很小一部分）。这样，我们将测量以下错误：