L1 和 L2 正则的区别，从梯度的角度来解释

叶庭云

发布于 2024-05-25 08:13:00

1.3K0

L1 和 L2 正则化是机器学习中常用的两种正则化方法，对于应对过拟合问题和提高模型泛化能力具有重要作用。

从梯度的角度来看，L1 和 L2 正则化的主要区别在于它们对学习过程和模型复杂性的影响不同。具体来说，L1 正则更适用于产生稀疏解并进行特征选择，而 L2 正则倾向于生成平滑的权重解。此外，L1 正则在零点处的不可微性增加了优化的复杂性。与 L2 正则处处可微（能直接使用基于梯度的方法优化）相比，L1 正则需要更复杂的方法来优化，如近端梯度法或次梯度法。

L1 正则化（也称为 Lasso 正则化）倾向于生成稀疏权重矩阵，这意味着它可以将一些权重参数缩减至 0，从而实现特征选择的效果。这种稀疏性是因为 L1 正则化在目标函数中添加了权重的绝对值之和作为惩罚项。从梯度的角度来看，L1 正则化在零点处不可微，这导致在零点附近的梯度更新可能会让某些权重直接跳到零，从而产生稀疏解。不过，这种不可微性增加了优化过程中的复杂性，需要采用专门的优化算法，如近端梯度法或次梯度法来处理。
L2 正则化（也称为 Ridge 正则化）倾向于生成平滑的权重，即它会将权重参数均匀地缩小，但并不会将它们缩减至 0。L2 正则化通过在目标函数中添加权重平方和作为惩罚项来实现这一效果。从梯度的角度来看，L2 正则化在任何地方都是可微的，这意味着它对梯度下降法等基于梯度的优化算法更为友好。当应用 L2 正则化时，权重的梯度会更加平滑，使得梯度下降过程更稳定，从而减少梯度爆炸或消失的风险。
在选择 L1 和 L2 正则化时，我们需要根据具体问题的需求来做决策。如果目标是特征选择或者希望得到稀疏模型，L1 正则化会是更好的选择。这是因为 L1 能够将不重要的特征的权重直接置为 0，从而简化模型并可能提高模型的解释性。而如果目标是提高模型的泛化能力，而不太关心权重的稀疏性，L2 正则化可能是更合适的选择，因为它能够有效地控制模型的复杂度，防止过拟合，而不会导致权重的稀疏性。

关键词：L1 norm、L2 norm、机器学习、梯度、优化

L1 正则：n 维空间中一个权重向量

\mathbf{w}

的 L1 正则定义为其分量的绝对值之和。在数学上，它表示为

||\mathbf{w}||_1 = \sum_{i=1}^{n} |w_i|

。（L1 正则化实际应用时可能乘以一个

\lambda/n

系数）

特性：

它倾向于在解中产生稀疏性，即鼓励系数为零。
在零点处不可微，这会影响优化过程，尤其是基于梯度的方法。

L2 正则：n 维空间中一个权重向量

\mathbf{w}

的 L2 正则定义为其各分量的平方和。在数学上，它表示为

||\mathbf{w}||_2 = \sum_{i=1}^{n} w_i^2

。（L2 正则化实际应用时可能乘以一个

\lambda/2n

系数）

特性：

它倾向于产生更平滑的优化景观，得到均为非零的较小数值。但本质上并不促进稀疏性。
它在任何地方都是可微分的，因此更适合基于梯度的优化方法。

优化中的梯度视角：

梯度下降：一种最小化由模型参数

\theta

参数化的目标函数

J(\theta)

的方法，该方法是沿着目标函数相对于参数的梯度的相反方向更新参数。（沿着梯度相反的方向更新参数可以最快地减小损失函数的值）

正则项对梯度的影响：正则项的选择会影响目标函数的形状以及梯度下降找到最小值的路径和效率。

稀疏性（L1 正则）：L1 正则鼓励参数向量的稀疏性。这在需要稀疏性的特征选择或高维问题中特别有用。从梯度的角度来看，L1 正则可能会导致梯度在某些点（特别是零点）无法定义。不过，在实践中，近端梯度法或次梯度法可以处理这种情况，并有效优化 L1 正则化目标。

可微分性（L2 正则）： L2 正则在任何地方都是可微分的，这简化了优化过程。在 L2 正则下，相对于参数的梯度是平滑变化的，这使得梯度下降的步骤更可预测、更稳定。这一特性使 L2 正则化成为缓解过拟合问题而不一定导致稀疏性的常用选择。

梯度路径：L1 正则和 L2 正则的选择会影响优化效果。L1 正则化在其优化过程中往往具有更尖锐的角点和边，导致某些参数的解为零。另一方面，L2 正则化具有更平滑的优化景观（圆润），导致参数较小但不完全为零的更分散的解决方案。

最后总结一下，L1 和 L2 正则在数学定义和性质上有本质区别，这反过来又会影响优化过程，尤其是从梯度的角度来看。

L1 正则鼓励解的稀疏性，并可能导致零点处的不可微性，这就需要专门的优化方法。L1 正则能够使一些权值变成 0，也就是可以去除某些特征在模型中的作用（特征选择），从而实现稀疏效果。
L2 正则在任何地方都是可微分的，它提供了更平滑的优化景观，导致更稳定的梯度下降步骤。它可以快速得到较小但不完全为零的权值，但本质上并不促进稀疏性。
因此，在 L1 正则化中，两个权值可能倾向于一个较大而另一个为 0，而在 L2 正则化中，两个权值则可能倾向于均为非零的较小数。这种特性使得 L1 正则化具有稀疏性，而 L2 正则化则呈现出平滑性。
正则化其实就是对参数添加约束，与 “带约束条件的目标函数” 是等价的。如何在 L1 和 L2 正则化之间做出选择，取决于当前问题的具体要求，例如是否需要生成稀疏解和特征选择（倾向于 L1）或是否希望在不引起稀疏性的情况下尽量缓解过拟合（倾向于 L2）。

📚️ 相关链接：

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-04-20，如有侵权请联系 cloudcommunity@tencent.com 删除

优化