机器学习第2步：数据预处理的L1和L2正则化方法

文章来源：企鹅号 - 数智萤火虫

内容摘要

L1和L2正则化是解决模型过拟合的主要方法，L1正则化起到特征选择的作用，L2正则化能够防止过拟合，最小近邻KNN算法能够揭示特征个数和模型准确率之间的关系，随机森林算法能够实现特征重要性的排序。

文章编号：AI-0009-V1.1

所属类别：人工智能

文章正文

过拟合就是模型考虑的变量太多，导致模型解决新问题的时候不实用，我们可以利用正则化方法，实现对模型复杂性的补偿，解决模型过拟合问题。

正则化分为L1和L2两种。

L1正则化是目标函数减去特征系数绝对值之和实现正则化，而L2正则化则是目标函数加上特征系数的平方和实现正则化。

说明：特征系数类似于f（x1，x2）=ax1+bx2+c函数中的a。

L1很容易产生特征系数为0的情况，意味着该特征不会对结果有任何影响，因此，L1正则化会让特征变得稀疏，起到特征选择的作用。

L2正则化则会对特征系数进行一个比例的缩放，不像L1正则化那样减去一个固定值，L2正则化会让系数趋向变小而不会变为0，因此，L2正则化会让模型变得更简单，达到防止过拟合的目的。

为了直观区分L1正则化和L2正则化，我们用几何图形直观看一下，如下图：

从上图可以看出，如果特征系数w1为0，其实这个特征对于模型预测结果就没有影响了，因此L1正则化使得参与运算的特征减少，从而达到了特征剔除的目的。

下图是L1正则化的结果：

从上图可以进一步看出，如何我们用强正则化参数（C

此外，SBS（后向序列选择法）或者KNN（最小近邻法）也能够实现特征选择，揭示特征个数与模型准确度的关系，为确定特征数提供参考，如下图所示：

用随机森林算法对特征重要性排序，如下图所示：

可以通过设置阈值来过滤特征。这里阈值设置为0.1，结果如下：

满足阈值要求的特征包括：5

1) 脯氨酸 0.185453

2) 黄酮类 0.174751

3) 颜色强度 0.143920

4) 稀释葡萄酒的OD280/OD315 0.136162

5) 酒精 0.118529

通常来说，阈值越低，标准越低，筛选出的特征值越多。

在这里，如果选择0.05，那么阈值数为7，可见比阈值0.1的时候多了两个特征。

内容小结

L1正则化起到特征选择的作用，L2正则化能够防止过拟合，最小近邻KNN算法能够揭示特征个数和模型准确率之间的关系，随机森林算法能够实现特征重要性的排序。

名词术语

正则化：Regularization

最小近邻算法：KNN，K-Nearest Network

随机森林算法：Random Forest

相关快讯