机器学习：统计学习三要素

文章来源：企鹅号 - 人人都要学点编程

统计学习是由模型，策略，算法构成的，可以简单的描述为：

方法 = 模型 + 策略 + 算法

一. 模型

在统计学习中，模型就是要学习的条件概率分布或者是策略函数，假设空间（hypothesis space）就是包含所有可能的条件概率分布或者决策函数的集合。例如决策函数是输入变量的线性函数，那么假设空间就是所有线性函数的集合。

假设空间一般用F表示，表示为决策函数的集合：

或者表示为条件概率分布：

符合条件概率分布的模型称为概率模型，符合决策函数的模型称为非概率模型。

二. 策略

策略的目标是从假设空间中选取最优模型。

此处引入两个函数：损失函数和风险函数。

损失函数：

用来计算预测值与真实值之间的偏差。

例如模型为函数f(x)，对于一个输入（x, y)，预测值就是f(x)，y代表真实值，那么损失函数记为：

在统计学习方法中，损失函数一般有以下几种：

损失函数越小，就说明选取的模型越好。

2. 风险函数

由于输入输出(x, y)满足联合概率分布P(X, Y)，我们称模型f(X)关于概率分布 P(X, Y)的平均意义下的损失为风险函数，也就是损失函数关于联合概率分布的期望，表示如下：

当训练样本非常大时，根据大数据定律，我们可以知道，风险函数基本就等于平均风险：

也称作经验风险，最优模型就可以认为是经验风险最小的模型。但是一般情况下，我们的训练样本数量不会特别大，也就是说，当训练样本数量比较小时，过于追求经验风险最小化，容易出现“过拟合”现象。后续文章会讲到这个概念。

为了解决“过拟合现象”，引入了结构风险，记为：

J(f)表示模型函数f的复杂度。

我们可以看到，结构风险就是在经验风险的基础上，加上了模型复杂度的计算。模型复杂度越高，J(f)越大，也就是说结构风险越大，换句话说，复杂度表示了对模型的惩罚。

是系数，用来权衡经验风险与模型复杂度。因此结构风险小，就要经验风险与模型复杂度都小。

最终，我们选择最优化模型的问题，就转化为了选择结构风险最小化的问题。

其中，F表示假设空间。

三. 算法

算法就是学习模型的具体计算方法。基于训练数据集，根据学习策略，计算得出最优的模型。

如果最优化模型有显式的解析解，那么问题就非常简单，但是通常并没有，需要通过数学计算来得出。如何得出最优解，以及保证整个计算过程的高效，就成为了非常重要的问题。

本篇文章粗略讲述了机器学习的三要素：模型，策略和算法。主要是一些概念和思想。关于文中提到的“过拟合”现象，将在下篇文章中通过一个例子来说明。

总结自李航所著的《统计学习方法》。

相关快讯