前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习-正则化-L1L2

机器学习-正则化-L1L2

作者头像
AomanHao
发布2022-01-13 12:16:48
1.2K0
发布2022-01-13 12:16:48
举报
文章被收录于专栏:ISP图像处理相关

机器学习-正则化-L1L2

样本数据量大:经验⻛风险最⼩小化

样本数据量小:结构⻛风险最⼩小化==正则化

经验风险最⼩小化(empirical risk minimization)认为经验⻛风险最⼩小的模型是最优的模型,即求解最优化问题

minf ∈ F(1/N)sum_{i=1}^NL(y_i,f(x_i))

样本容量量⾜足够⼤大的时候,经验⻛风险最⼩小化学习效果良好

结构⻛风险=经验⻛风险+模型复杂度的正则化项(regularizer)或罚项(penalty term)

minf ∈ F(1/N)\sum_{i=1}^NL(y_i,f(x_i))+\lambda{J(f)}

J(f)是模型的复杂度,模型f越复杂,复杂度J(f)越大。\lambda ≥ 0是系数,⽤用以权衡经验⻛风险和模型复杂度。

结构风险⼩需要1、经验风险和2、模型复杂度同时⼩

范数

因为非负性:可以做损失函数,正则项

损失函数通常是⼀个有下确界的函数

常用范数: L0

L1:绝对值

||x||=\sum_{i=1}^{d}{|x_i|}

L2;平方再开根号

||x||_2=(\sum_{i=1}^{d}{|x_i^2|})^{1/2}

Lp

||x||_2=(\sum_{i=1}^{d}{|x_i^p|})^{1/p}

p=1,曼哈顿距离,L1范数,表示某个向量量中所有元素绝对值的和 p=2,欧式距离,L2范数

使用L1正则项,倾向于使参数稀疏化,使用L2正则项,使参数稠密的接近于0。 L1正则是菱形,参数的交点都落在坐标轴上,实现稀疏化。 L2是圆形,

正则项是为了降低模型的复杂度,从而避免模型区过分拟合训练数据,包括噪声与异常点(outliers)。从另一个角度上来讲,正则化即是假设模型参数服从先验概率,即为模型参数添加先验,只是不同的正则化方式的先验分布是不一样的。这样就规定了参数的分布,使得模型的复杂度降低(试想一下,限定条件多了,是不是模型的复杂度降低了呢),这样模型对于噪声与异常点的抗干扰性的能力增强,从而提高模型的泛化能力。还有个解释便是,从贝叶斯学派来看:加了先验,在数据少的时候,先验知识可以防止过拟合;从频率学派来看:正则项限定了参数的取值,从而提高了模型的稳定性,而稳定性强的模型不会过拟合,即控制模型空间。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018 年 07 月,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 范数
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档