首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

特征工程 特征处理

前言:本文介绍了特征处理中的特征缩放、选择和降维,并用代码演示特征缩放中的标准化法和区间缩放法。

特征缩放

特征值缩放:

特征值的缩放‐‐标准化法:

标准化法按照标准正态分布将一列上的值进行标准化,即为求z值,axis = 0 代表是轴的方向,取列方向上的值。

特征值的缩放‐‐区间缩放法:

特征值的归一化:

归一化即将一行特征的坐标转换成一个不含量纲(单位)的“单位向量”。

L1 和 L2 范式也会用于回归问题的正则化,L1范式的分母是向量各元素绝对值的和,可用于特征选择,L2范式的分母是向量各元素平方和的开方,可用于防止过拟合。

定量特征的二值化:

缺失特征值的弥补计算:

创建多项式特征:

基于线性的特征建立的模型不能探寻两个因子间是否存在交互关系,因而平方展开多项式,获取更多的特征,如:x1*x2 交互项特征构建模型,可以分析出两个因子的交互作用对目标的影响。

特征选择

特征选择:

数据预处理变换后 ,可以得到很多的特征,选择对于学习任务有帮助的特征,降低模型运行的时间和提升效率,例如:在处理文本内容时,当文本内容较多,会发生“维度灾难”;过多的维度会造成模型的可解释性变差。

特征选择方法1‐‐方差选择法:

特征选择方法2‐‐皮尔森相关系数法:

特征选择方法3‐‐基于森林的特征选择:

特征选择方法4‐‐递归特征消除法:

特征降维

线性判别分析法(LDA):

上面两张图将二维数据投影到一维的一条直线上,右图投影后红色和蓝色两类样本更为集中,且中心距更大。当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

主成分分析法(PCA):

主成成分分析将鸢尾花数据集中的四个特征转换为两个重要的特征,并可以将特征转换成二维的数据在平面上进行展示。

代码演示-量纲缩放

演示内容:量纲的特征缩放

两种方法:标准化缩放法和区间缩放法

每种方法有两个例子:简单二维矩阵和iris数据集

公众号回复:“量纲缩放” 获取代码

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200808A036WK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券