前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[机器学习必知必会]损失函数与风险函数

[机器学习必知必会]损失函数与风险函数

作者头像
TOMOCAT
发布2020-06-10 15:05:20
7460
发布2020-06-10 15:05:20
举报

引言

我们需要一定的准则来评估不同机器学习模型的优劣,这就引申出损失函数和风险函数。

  • 损失函数:评估模型单次预测的好坏
  • 风险函数:度量平均意义下模型的好坏

损失函数的定义

监督学习是在假设空间

F
F

中选取模型

f
f

作为决策函数,对于给定的输入

X
X

,由

f(X)
f(X)

给出相应的输出

Y
Y

,用损失函数来衡量预测值

f(X)
f(X)

和真实值

Y
Y

之间的差距,它是一个非负实值函数,记作

L(Y,f(X))
L(Y,f(X))

常用的损失函数

1. 0-1损失函数
L(Y,f(x))= \begin{cases} 1, Y!=f(x) \\ 0, Y = f(x) \end{cases}
L(Y,f(x))= \begin{cases} 1, Y!=f(x) \\ 0, Y = f(x) \end{cases}
2. 平方损失函数
L(Y,f(X))=(Y-f(X))^2
L(Y,f(X))=(Y-f(X))^2
3. 绝对损失函数
L(Y,P(Y|X))=|Y-f(X)|
L(Y,P(Y|X))=|Y-f(X)|
4. 对数似然损失函数
L(Y,P(Y|X))=-logP(Y|X)
L(Y,P(Y|X))=-logP(Y|X)

风险函数

当损失函数越小时意味着模型拟合效果越好,损失函数的期望是:

R_{exp}(f)=E_p[L(Y,f(x))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy
R_{exp}(f)=E_p[L(Y,f(x))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy

这是理论上模型

f(X)
f(X)

关于联合分布

P(X,Y)
P(X,Y)

的平均意义下的损失,称为风险函数(或者期望损失)。

1.风险函数与监督学习的关系

监督学习的目的就是选择令期望风险最小化的模型,但是由于联合分布

P(X,Y)
P(X,Y)

未知,风险函数的值并不能直接计算,所以监督学习就称为一个病态问题ill-formed problem

2.经验风险损失

由于风险函数并不能直接计算,我们转而求模型

f(X)
f(X)

在训练数据集上的平均损失作为经验风险损失,记作

R_{emp}
R_{emp}

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))

R_{exp}(f)
R_{exp}(f)

是模型

f(x)
f(x)

关于联合分布的期望损失,

R_{emp}(f)
R_{emp}(f)

是模型

f(x)
f(x)

在训练集上的平均损失。根据大数定律,当样本容量

N
N

趋于无穷是,这两个损失基本相等。但是现实中训练样本数量往往有限,从而用经验风险估计期望风险往往并不理想,需要对经验风险进行一定的矫正,这就涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

3.经验风险最小化

经验风险最小化策略认为,经验风险最小的模型就是最优的模型,即:

\min_{f\in F} \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))
\min_{f\in F} \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))

当样本容量足够大时,经验风险最小化能保证具有较好的学习效果,在现实中也被广泛采用。例如极大似然估计就是经验风险最小化的一个例子(在模型是条件概率分布,损失函数是对数损失函数时等价)

4.结构风险最小化

当样本容量较小时,经验风险最小化的准则会导致过拟合问题的出现,结构风险最小化等价于正则化(也叫做罚项)。定义如下:

R_{srm}=\frac{1}{N}L(y_i,f(x_i))+\lambda J(f)
R_{srm}=\frac{1}{N}L(y_i,f(x_i))+\lambda J(f)

其中

J(f)
J(f)

为模型的复杂度,是定义在假设空间

F
F

上的泛函。其中

\lambda\geq0
\lambda\geq0

是系数,用于权衡经验风险和模型复杂度对模型优劣的影响。

结构风险较小的模型往往对训练数据以及未知的测试数据都有较好的预测。例如贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子(在模型是条件概率分布,损失函数是对数损失概率且模型复杂度由模型的先验概率表示时等价)

结论

监督学习的问题可以转化为经验风险或者结构风险函数的最优化问题,这时候经验或者结构风险函数就是最优化的目标函数

Reference

[1] 统计学习方法

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 损失函数的定义
  • 常用的损失函数
    • 1. 0-1损失函数
      • 2. 平方损失函数
        • 3. 绝对损失函数
          • 4. 对数似然损失函数
          • 风险函数
            • 1.风险函数与监督学习的关系
              • 2.经验风险损失
                • 3.经验风险最小化
                  • 4.结构风险最小化
                  • 结论
                  • Reference
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档