机器学习:统计学习三要素

统计学习是由模型,策略,算法构成的,可以简单的描述为:

方法 = 模型 + 策略 + 算法

一. 模型

在统计学习中,模型就是要学习的条件概率分布或者是策略函数,假设空间(hypothesis space)就是包含所有可能的条件概率分布或者决策函数的集合。例如决策函数是输入变量的线性函数,那么假设空间就是所有线性函数的集合。

假设空间一般用F表示,表示为决策函数的集合:

或者表示为条件概率分布:

符合条件概率分布的模型称为概率模型,符合决策函数的模型称为非概率模型。

二. 策略

策略的目标是从假设空间中选取最优模型。

此处引入两个函数:损失函数和风险函数。

损失函数:

用来计算预测值与真实值之间的偏差。

例如模型为函数f(x),对于一个输入(x, y), 预测值就是f(x),y代表真实值,那么损失函数记为:

在统计学习方法中,损失函数一般有以下几种:

损失函数越小,就说明选取的模型越好。

2. 风险函数

由于输入输出(x, y)满足联合概率分布P(X, Y),我们称模型f(X)关于概率分布 P(X, Y)的平均意义下的损失为风险函数,也就是损失函数关于联合概率分布的期望,表示如下:

当训练样本非常大时,根据大数据定律,我们可以知道,风险函数基本就等于平均风险:

也称作经验风险,最优模型就可以认为是经验风险最小的模型。但是一般情况下,我们的训练样本数量不会特别大,也就是说,当训练样本数量比较小时,过于追求经验风险最小化,容易出现“过拟合”现象。后续文章会讲到这个概念。

为了解决“过拟合现象”,引入了结构风险,记为:

J(f)表示模型函数f的复杂度。

我们可以看到,结构风险就是在经验风险的基础上,加上了模型复杂度的计算。模型复杂度越高,J(f)越大,也就是说结构风险越大,换句话说,复杂度表示了对模型的惩罚。

是系数,用来权衡经验风险与模型复杂度。因此结构风险小,就要经验风险与模型复杂度都小。

最终,我们选择最优化模型的问题,就转化为了选择结构风险最小化的问题。

其中,F表示假设空间。

三. 算法

算法就是学习模型的具体计算方法。基于训练数据集,根据学习策略,计算得出最优的模型。

如果最优化模型有显式的解析解,那么问题就非常简单,但是通常并没有,需要通过数学计算来得出。如何得出最优解,以及保证整个计算过程的高效,就成为了非常重要的问题。

本篇文章粗略讲述了机器学习的三要素:模型,策略和算法。主要是一些概念和思想。关于文中提到的“过拟合”现象,将在下篇文章中通过一个例子来说明。

总结自李航所著的《统计学习方法》。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180801G02AGP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券