内容摘要
L1和L2正则化是解决模型过拟合的主要方法,L1正则化起到特征选择的作用,L2正则化能够防止过拟合,最小近邻KNN算法能够揭示特征个数和模型准确率之间的关系,随机森林算法能够实现特征重要性的排序。
文章编号:AI-0009-V1.1
所属类别:人工智能
文章正文
过拟合就是模型考虑的变量太多,导致模型解决新问题的时候不实用,我们可以利用正则化方法,实现对模型复杂性的补偿,解决模型过拟合问题。
正则化分为L1和L2两种。
L1正则化是目标函数减去特征系数绝对值之和实现正则化,而L2正则化则是目标函数加上特征系数的平方和实现正则化。
说明:特征系数类似于f(x1,x2)=ax1+bx2+c函数中的a。
L1很容易产生特征系数为0的情况,意味着该特征不会对结果有任何影响,因此,L1正则化会让特征变得稀疏,起到特征选择的作用。
L2正则化则会对特征系数进行一个比例的缩放,不像L1正则化那样减去一个固定值,L2正则化会让系数趋向变小而不会变为0,因此,L2正则化会让模型变得更简单,达到防止过拟合的目的。
为了直观区分L1正则化和L2正则化,我们用几何图形直观看一下,如下图:
从上图可以看出,如果特征系数w1为0,其实这个特征对于模型预测结果就没有影响了,因此L1正则化使得参与运算的特征减少,从而达到了特征剔除的目的。
下图是L1正则化的结果:
从上图可以进一步看出,如何我们用强正则化参数(C
此外,SBS(后向序列选择法)或者KNN(最小近邻法)也能够实现特征选择,揭示特征个数与模型准确度的关系,为确定特征数提供参考,如下图所示:
用随机森林算法对特征重要性排序,如下图所示:
可以通过设置阈值来过滤特征。这里阈值设置为0.1,结果如下:
满足阈值要求的特征包括:5
1) 脯氨酸 0.185453
2) 黄酮类 0.174751
3) 颜色强度 0.143920
4) 稀释葡萄酒的OD280/OD315 0.136162
5) 酒精 0.118529
通常来说,阈值越低,标准越低,筛选出的特征值越多。
在这里,如果选择0.05,那么阈值数为7,可见比阈值0.1的时候多了两个特征。
内容小结
L1正则化起到特征选择的作用,L2正则化能够防止过拟合,最小近邻KNN算法能够揭示特征个数和模型准确率之间的关系,随机森林算法能够实现特征重要性的排序。
名词术语
正则化:Regularization
最小近邻算法:KNN,K-Nearest Network
随机森林算法:Random Forest
领取专属 10元无门槛券
私享最新 技术干货