首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习第2步:数据预处理的L1和L2正则化方法

内容摘要

L1和L2正则化是解决模型过拟合的主要方法,L1正则化起到特征选择的作用,L2正则化能够防止过拟合,最小近邻KNN算法能够揭示特征个数和模型准确率之间的关系,随机森林算法能够实现特征重要性的排序。

文章编号:AI-0009-V1.1

所属类别:人工智能

文章正文

过拟合就是模型考虑的变量太多,导致模型解决新问题的时候不实用,我们可以利用正则化方法,实现对模型复杂性的补偿,解决模型过拟合问题。

正则化分为L1和L2两种。

L1正则化是目标函数减去特征系数绝对值之和实现正则化,而L2正则化则是目标函数加上特征系数的平方和实现正则化。

说明:特征系数类似于f(x1,x2)=ax1+bx2+c函数中的a。

L1很容易产生特征系数为0的情况,意味着该特征不会对结果有任何影响,因此,L1正则化会让特征变得稀疏,起到特征选择的作用

L2正则化则会对特征系数进行一个比例的缩放,不像L1正则化那样减去一个固定值,L2正则化会让系数趋向变小而不会变为0,因此,L2正则化会让模型变得更简单,达到防止过拟合的目的。

为了直观区分L1正则化和L2正则化,我们用几何图形直观看一下,如下图:

从上图可以看出,如果特征系数w1为0,其实这个特征对于模型预测结果就没有影响了,因此L1正则化使得参与运算的特征减少,从而达到了特征剔除的目的。

下图是L1正则化的结果:

从上图可以进一步看出,如何我们用强正则化参数(C

此外,SBS(后向序列选择法)或者KNN(最小近邻法)也能够实现特征选择,揭示特征个数与模型准确度的关系,为确定特征数提供参考,如下图所示:

用随机森林算法对特征重要性排序,如下图所示:

可以通过设置阈值来过滤特征。这里阈值设置为0.1,结果如下:

满足阈值要求的特征包括:5

1) 脯氨酸                            0.185453

2) 黄酮类                            0.174751

3) 颜色强度                           0.143920

4) 稀释葡萄酒的OD280/OD315              0.136162

5) 酒精                             0.118529

通常来说,阈值越低,标准越低,筛选出的特征值越多

在这里,如果选择0.05,那么阈值数为7,可见比阈值0.1的时候多了两个特征。

内容小结

L1正则化起到特征选择的作用,L2正则化能够防止过拟合,最小近邻KNN算法能够揭示特征个数和模型准确率之间的关系,随机森林算法能够实现特征重要性的排序。

名词术语

正则化:Regularization

最小近邻算法:KNN,K-Nearest Network

随机森林算法:Random Forest

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210310A04T2800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券