前言:本文介绍了特征处理中的特征缩放、选择和降维,并用代码演示特征缩放中的标准化法和区间缩放法。
特征缩放
特征值缩放:
特征值的缩放‐‐标准化法:
标准化法按照标准正态分布将一列上的值进行标准化,即为求z值,axis = 0 代表是轴的方向,取列方向上的值。
特征值的缩放‐‐区间缩放法:
特征值的归一化:
归一化即将一行特征的坐标转换成一个不含量纲(单位)的“单位向量”。
L1 和 L2 范式也会用于回归问题的正则化,L1范式的分母是向量各元素绝对值的和,可用于特征选择,L2范式的分母是向量各元素平方和的开方,可用于防止过拟合。
定量特征的二值化:
缺失特征值的弥补计算:
创建多项式特征:
基于线性的特征建立的模型不能探寻两个因子间是否存在交互关系,因而平方展开多项式,获取更多的特征,如:x1*x2 交互项特征构建模型,可以分析出两个因子的交互作用对目标的影响。
特征选择
特征选择:
数据预处理变换后 ,可以得到很多的特征,选择对于学习任务有帮助的特征,降低模型运行的时间和提升效率,例如:在处理文本内容时,当文本内容较多,会发生“维度灾难”;过多的维度会造成模型的可解释性变差。
特征选择方法1‐‐方差选择法:
特征选择方法2‐‐皮尔森相关系数法:
特征选择方法3‐‐基于森林的特征选择:
特征选择方法4‐‐递归特征消除法:
特征降维
线性判别分析法(LDA):
上面两张图将二维数据投影到一维的一条直线上,右图投影后红色和蓝色两类样本更为集中,且中心距更大。当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。
主成分分析法(PCA):
主成成分分析将鸢尾花数据集中的四个特征转换为两个重要的特征,并可以将特征转换成二维的数据在平面上进行展示。
代码演示-量纲缩放
演示内容:量纲的特征缩放
两种方法:标准化缩放法和区间缩放法
每种方法有两个例子:简单二维矩阵和iris数据集
公众号回复:“量纲缩放” 获取代码
领取专属 10元无门槛券
私享最新 技术干货