L2正则化(L2 Regularization)

正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用更加简单的模型,以防止过拟合。

1. L2L_2正则化项的导出

正则化是机器学习中一个防止过拟合的一个重要手段通常,过拟合一个显著地表现是能够很好地拟合当前的数据,但是泛化能力不强。首先假设模型学到了多项式:

PS: L2 norm在回归问题中称作岭回归(Ridge Regression)或权值衰减(Weight-decay) L1 norm称作LASSO(Least Absolute Shrinkage and Selection Operator)

2. L1L_1正则化项和L2L_2正则化项

L1L_1正则化项和L2L_2正则化项都有助于降低过拟合的风险,但是L1L_1正则化项更适合作稀疏化,即得到更少的ww为非零的解。 正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用低维的模型,以防止过拟合。 一种贝叶斯角度理解正则,加了先验知识就相当于一种正则,可以做到防止过拟合(如我们抛硬币十次但只有一次正面,加了先验知识之后,如果使用贝叶斯估计的话,参数估计的结果会朝着先验的方向矫正,具体具体可参考Parameter estimation for text analysis. Gregor Heinrich.):L1L_1正则化项为先验为拉普拉斯分布,L2L_2正则化项先验为高斯分布,将其分别取对数之后分别留下了绝对值项和平方项。领关于L1的稀疏性以及其它的一些问题,可见知乎问题l1 相比于 l2 为什么容易获得稀疏解?。

等等。。

特征选择通常有三种方法,即过滤式选择(Filter)、包裹式选择(Wrapper)和嵌入式选择(Embedded),而本文介绍的L1正则化和L2正则化是属于第三种,即在模型训练的时候同时做特征选择。

如有纰漏,欢迎指正。

参考资料: 1. 周志华《机器学习》ch. 11.4 2. 林轩田. 机器学习基石课程 Lecture 14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏null的专栏

简单易学的机器学习算法——SVD奇异值分解

一、SVD奇异值分解的定义 image.png 二、SVD奇异值分解与特征值分解的关系     特征值分解与SVD奇异值分解的目的都是提取一个矩阵最重要的特征。...

38070
来自专栏算法channel

数据预处理:PCA原理推导

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

45390
来自专栏机器学习算法原理与实践

MCMC(三)MCMC采样和M-H采样

    在MCMC(二)马尔科夫链中我们讲到给定一个概率平稳分布$\pi$, 很难直接找到对应的马尔科夫链状态转移矩阵$P$。而只要解决这个问题,我们就可以找到...

16350
来自专栏量化投资与机器学习

【Python机器学习】数据预处理——图像压缩与线性代数

现在有一张朱迪的照片,这张照片有500多列的像素点构成,但是大部分地方都是白色的,相互没有什么差别,也就是说图像中有很多列都是相互线性相关的,这些列向量对我们接...

27270
来自专栏算法channel

数据降维处理:PCA之奇异值分解(SVD)介绍

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

44080
来自专栏小小挖掘机

推荐系统遇上深度学习(八)--AFM模型理论和实践

在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次...

27620
来自专栏大数据挖掘DT机器学习

通俗理解LDA主题模型

0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过...

6.7K80
来自专栏算法channel

3分钟理解 支持向量机中最出神的第一笔

之前推送过SVM,今天,又有了更容易理解SVM的目标函数和约束怎么得来的思路,因此,记录下来,与大家一起分享。

12630
来自专栏人工智能

机器学习基础之模型评估(四)

标题: 损失函数与风险 正则化 这次,我们来介绍一下机器学习模型中常用到的一种对付模型过拟合问题的方法,也是许多模型常用的优化模型的一个方法:正则化。 正则化是...

20780
来自专栏自然语言处理

一起走进条件随机场1(NLP重点理论)

线性链的条件随机场跟线性链的隐马尔科夫模型一样,一般推断用的都是维特比算法。这个算法是一个最简单的动态规划。

9810

扫码关注云+社区

领取腾讯云代金券