L1正则化似懂非懂?不妨戳进来看一看

想必大家对L1正则化已经是再熟悉不过了,而且大家也都知道L1正则化是可以得到稀疏解的,即具有特征选择的功能。本文就从几何和数学两个角度来复习以下L1正则化。

1、L1正则化

大部分的正则化方法是在经验损失的基础上增加一个结构化损失,用来限制模型的学习能力,提升模型的泛化能力。L1正则化方法即在经验损失的基础上增加参数的一范数作为结构损失。数学表达如下:

我们都知道在模型损失中加入L1正则化可以获得参数的稀疏解,接下来,我们从几何和数学两个角度进行以下解释,不过重点还是在数学推导上。

2、几何解释

几乎所有解释L1正则化的文章中都会出现这张图,图中等值线是L的等值线,黑色方形是正则项的图形L1。在图中,当L等值线与

图形L1首次相交的地方就是最优解。上图中L与L1在L1的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L1正则项的图形L1是棱形,有很多突出的角(二维情况下四个,多维情况下更多),L等值线与这些角接触的机率会远大于与L1其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

前方高能,非战斗人员请迅速撤离!!!

3、数学推导

以下的部分从word中粘贴而来。

参考文献:

1、https://blog.csdn.net/jinping_shi/article/details/52433975

2、https://www.cnblogs.com/heguanyou/archive/2017/09/23/7582578.html

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180531G03HTR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券