L2正则化(L2 Regularization)

正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用更加简单的模型,以防止过拟合。

1. L2L_2正则化项的导出

正则化是机器学习中一个防止过拟合的一个重要手段通常,过拟合一个显著地表现是能够很好地拟合当前的数据,但是泛化能力不强。首先假设模型学到了多项式:

PS: L2 norm在回归问题中称作岭回归(Ridge Regression)或权值衰减(Weight-decay) L1 norm称作LASSO(Least Absolute Shrinkage and Selection Operator)

2. L1L_1正则化项和L2L_2正则化项

L1L_1正则化项和L2L_2正则化项都有助于降低过拟合的风险,但是L1L_1正则化项更适合作稀疏化,即得到更少的ww为非零的解。 正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用低维的模型,以防止过拟合。 一种贝叶斯角度理解正则,加了先验知识就相当于一种正则,可以做到防止过拟合(如我们抛硬币十次但只有一次正面,加了先验知识之后,如果使用贝叶斯估计的话,参数估计的结果会朝着先验的方向矫正,具体具体可参考Parameter estimation for text analysis. Gregor Heinrich.):L1L_1正则化项为先验为拉普拉斯分布,L2L_2正则化项先验为高斯分布,将其分别取对数之后分别留下了绝对值项和平方项。领关于L1的稀疏性以及其它的一些问题,可见知乎问题l1 相比于 l2 为什么容易获得稀疏解?。

等等。。

特征选择通常有三种方法,即过滤式选择(Filter)、包裹式选择(Wrapper)和嵌入式选择(Embedded),而本文介绍的L1正则化和L2正则化是属于第三种,即在模型训练的时候同时做特征选择。

如有纰漏,欢迎指正。

参考资料: 1. 周志华《机器学习》ch. 11.4 2. 林轩田. 机器学习基石课程 Lecture 14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

想搞机器学习,不会特征工程?

引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应...

2653
来自专栏机器之心

教程 | CMU研究者探索新卷积方法:在实验中可媲美基准CNN(附实验代码)

选自medium 作者:Sahil Singla 机器之心编译 参与:Panda 尽管卷积神经网络成就非凡,但卷积本身并不完美,卡内基梅隆大学计算机科学博士 S...

31210
来自专栏新智元

【一个神经元统治一切】ResNet 强大的理论证明

【新智元导读】MIT CSAIL的研究人员发现,隐藏层仅有一个神经元的ResNet就是一个通用的函数逼近器,恒等映射确实加强了深度网络的表达能力。研究人员表示,...

600
来自专栏蒋心为的专栏

基于深度学习的图像真实风格迁移

本文详细讲解论文“ Deep Photo Style Transfer ”算法原理与实现和该模型优于之前相关模型的关键之处。

2.7K3
来自专栏技术随笔

[译] 纹理网络:在前馈网络中进行纹理合成与风格化

3496
来自专栏机器之心

学界 | 信息论视角下的深度学习简述,形式化的泛化误差分析

1663
来自专栏机器学习算法原理与实践

scikit-learn 梯度提升树(GBDT)调参小结

    在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参...

733
来自专栏AI研习社

传统算法如何转化成神经网络?| 回顾

在当今AI时代中,CNN和RNN都被广泛关注,并且有很多相关讨论,而最基础的神经网络DNN,它的研究和曝光度却相对较少。DNN是所有其它神经网络的基础,所以对它...

35412
来自专栏AI科技评论

学界 | 卷积神经网络做简单任务原来有 BUG?UBER AI Lab 来支招

AI 科技评论按:UBER AI Lab 最新研究发现卷积神经网络在处理坐标变换问题上存在惊人的「无能」缺陷,并提出了一种简单的 CoordConv 策略修复了...

571
来自专栏编程

图文详解高斯过程(一)——含代码

作者:Alex Bridgland 编译:Bot 编者按:高斯过程(Gaussian process)是概率论和统计学中的一个重要概念,它同时也被认为是一种机器...

5007

扫码关注云+社区