数据、学习和模型

白加黑大人

修改于 2018-02-11 20:21:59

5910

修改于 2018-02-11 20:21:59

文章被收录于专栏：我的技术笔记我的技术笔记

机器学习中有几个关键的概念，这些概念为理解机器学习这个领域奠定了基础。

你将会在本文中学习到这些用于描述数据和数据集的术语条目（标准条目）。

除此之外，你也会学到从数据中引申出来的学习和建模的概念和术语，在机器学习的旅行中，这些内容将会给你带来极有价值的直观认知。

数据

机器学习方法是从既有案例中学习到的，所以透彻理解输入数据和熟练掌握用于描述数据的术语是非常重要的事情。在本节中，我们会在谈论数据的时候学习机器学习中使用的术语。

谈到数据，我通常会想到由行和列组成的二维表。例如数据库表和Excel电子表格。这是一种传统的数据结构，在机器学习领域中是很常见的。除此之外的数据有图像、视频和文本，至于那些非结构化数据则不在考虑范围内。

实例： 单行数据被称为实例，是数据域的一个观测样本。

特征： 单列数据被称为特征，是观测样本的组成部分，也被称为数据实例的属性，一些特征可能是模型（预测变量）的输入，其他的特征可能是输入或者预测的特征。

数据类型： 特征具有一个数据类型，它们可能是实数或者整数值，也有可能是分类变量或者定序变量。你可以用字符串，日期，时间和更复杂的数据类型，但是在使用传统的机器学习方法时，通常会将这些数据类型缩减成实数类型或者分类变量。

数据集： 数据集是多个实例的集合，在使用机器学习方法的时候，为了完成特定的目的，我们通常会需要一些的数据集。

训练数据集： 我们提供给机器学习算法，用来训练模型的数据集。

测试数据集： 用来校验模型准确性的数据集，但是不可用于训练模型。我们也可称之为校验数据集。

我们可能有必要收集数据实例来构成我们的数据集，或者我们可能会得到一个有限的数据集，然后有必要将它划子数据集。

学习

机器学习本质上就是算法的自动学习。

我们会在本节中思考一些机器学习的高级概念。

归纳法：机器学习算法通过模拟归纳或者归纳学习的过程来完成学习。归纳是一种推理过程，它由特定的信息（训练数据）归纳出泛化结果（模型）。

泛化：模型由机器学习算法提供，它需要根据不同于训练数据集的数据实例来做出预测或者判断，所以说泛化是有必要的

过度学习：一个模型过于频繁地学习训练数据集而不进行归纳，就被称之为过度学习。会导致的结果就是除了训练数据集之外，其他数据表现的性能都很差。这也被称之为“过拟合”。

学习不足：由于学习过程被提前终止，模型没有从数据库中学习到足够的数据实例结构，这就叫做“学习不足”。导致模型的泛化能力很好，但是在所有数据集上表现的性能不佳，包括训练数据集。这也被称为“欠拟合”。

线上学习：线上学习是指在数据域可用的时候，通过方法从数据域上更新数据实例。线上学习需要健壮的方法来处理数据，这些数据虽然嘈杂但是可以生成与当前域的状态相一致的模型。

线下学习：线下学习是指在预先在准备好的数据中创建一个方法，然后在未观察的数据上进行处理。因为训练数据的参数是已知的，所以训练过程是可控的，并且可以很好地进行调整。模型在训练完成后不会更新，如果数据域的状态发生变化，模型性能可能会降低。

有监督学习：这是一个在需要预测的问题上进行归纳的学习过程。“学习过程”将模型的预测结果与已知结果进行比较，然后在模型中进行修正。

无监督学习：这是一个在不需要进行预测的情况下对数据结构进行归纳的学习过程，识别并利用学习对象中天然的特性结构，并将这些特性用于数据实例的相互关联。

我在之前的机器学习算法文章中已经介绍过了有监督学习和无监督学习。如果根据它们的行为对算法进行分类，那这些术语会很有用。

模型

机器学习过程所创造的人工智能可以被认定为一个程序。

模型选择：我们可以将模型的训练和配置看作是一个模型选择的过程，可以选择使用或者修改每次迭代产生的新模型。即便是机器学习算法的选择同样可以看作是模型选择的一部分，对于已知问题的所有可能的模型，我们可以由给定的算法和基于给定数据集的算法配置最终确定要选择的模型。

归纳偏差：偏差是施加于模型之上的限制。任何模型都具有偏差，它们会将错误引入模型。并且根据定义，所有模型都具有误差（这是从观察中归纳出来的）。模型的泛化能力决定了引入偏差的大小，而模型的泛化能力则受模型配置和模型的生成算法选择的影响。一个机器学习方法可以创建一个有或高或低偏差的模型，并借此模型来降低高度偏倚模型的偏差。

模型方差：方差表示出了模型对训练数据的敏感度。当在训练数据集的基础上创建模型时，机器学习方法可能会有或高或低的方差。降低模型方差的一种策略是这样的，改变数据集的初始条件并多次运行，然后取平均值作为模型的精度值。

偏差-方差权衡：模型的选择可以看作是偏差和方差彼此妥协。一个偏差低的模型会有一个高方差处理，并且需要经过很长时间的数据训练才能得到一个可用的模型。而偏差高的模型会有一个低方差处理，并且会快速地进行数据训练，但还是会受到微小且极其有限的影响。