L1正则化似懂非懂?不妨戳进来看一看

想必大家对L1正则化已经是再熟悉不过了,而且大家也都知道L1正则化是可以得到稀疏解的,即具有特征选择的功能。本文就从几何和数学两个角度来复习以下L1正则化。

1、L1正则化

大部分的正则化方法是在经验损失的基础上增加一个结构化损失,用来限制模型的学习能力,提升模型的泛化能力。L1正则化方法即在经验损失的基础上增加参数的一范数作为结构损失。数学表达如下:

我们都知道在模型损失中加入L1正则化可以获得参数的稀疏解,接下来,我们从几何和数学两个角度进行以下解释,不过重点还是在数学推导上。

2、几何解释

几乎所有解释L1正则化的文章中都会出现这张图,图中等值线是L的等值线,黑色方形是正则项的图形L1。在图中,当L等值线与 图形L1首次相交的地方就是最优解。上图中L与L1在L1的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L1正则项的图形L1是棱形,有很多突出的角(二维情况下四个,多维情况下更多),L等值线与这些角接触的机率会远大于与L1其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

前方高能,非战斗人员请迅速撤离!!!

3、数学推导

以下的部分从word中粘贴而来。

参考文献:

1、https://blog.csdn.net/jinping_shi/article/details/52433975 2、https://www.cnblogs.com/heguanyou/archive/2017/09/23/7582578.html

原文发布于微信公众号 - 小小挖掘机(wAIsjwj)

原文发表时间:2018-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

目标检测入门(二):模型的评测与训练技巧

文章结构 ? 检测模型的评测指标 目标检测模型本源上可以用统计推断的框架描述,我们关注其犯第一类错误和第二类错误的概率,通常用准确率和召回率来描述。准确率描述了...

72260
来自专栏人工智能头条

结合Scikit-learn介绍几种常用的特征选择方法

29850
来自专栏机器之心

SIGIR 2018 | 大会最佳短论文:利用对抗学习的跨域正则化

近期学界有多个神经排序模型被提出,这些模型通过考虑原始查询-文档文本(query-document text)[14]、基于确切的查询词项匹配文档的模式 [5]...

8120
来自专栏智能算法

结合Scikit-learn介绍几种常用的特征选择方法(下)

5 两种顶层特征选择算法 之所以叫做顶层,是因为他们都是建立在基于模型的特征选择方法基础之上的,例如回归和SVM,在不同的子集上建立模型,然后汇总最...

66940
来自专栏生信小驿站

无监督学习 聚类分析③

可以看到有16个指标支持最佳聚类数目为3,5个指标支持聚类数为2,所以该方法推荐的最佳聚类数目为3.

10040
来自专栏机器学习算法工程师

一文看懂常用的梯度下降算法

作者:叶 虎 编辑:祝鑫泉 一 概述 梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。对于深...

563100
来自专栏AI研习社

史上最简洁易懂教程 用Excel理解梯度下降

AI 研习社按:本文作者为 Jahnavi Mahanta,前 American Express (美国运通公司)资深机器学习工程师、深度学习在线教育网站 De...

42050
来自专栏技术专栏

Python3入门机器学习(六)- 梯度下降法

以下是定义了一个损失函数以后,参数theta对应的损失函数J的值对应的示例图,我们需要找到使得损失函数值J取得最小值对应的theta(这里是二维平面,也就是我们...

36330
来自专栏智能算法

结合Scikit-learn介绍几种常用的特征选择方法(上)

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型...

1.4K60
来自专栏专知

【干货】一种直观的方法认识梯度下降

【导读】本文是深度学习专家Thalles Silva分享的一篇技术博客,主要讲解机器学习算法中的梯度下降。首先从形象的角度介绍梯度下降:梯度、偏导数等。然后,根...

47860

扫码关注云+社区

领取腾讯云代金券