特征工程特征处理

文章来源：企鹅号 - A2Data

前言：本文介绍了特征处理中的特征缩放、选择和降维，并用代码演示特征缩放中的标准化法和区间缩放法。

特征缩放

特征值缩放：

特征值的缩放‐‐标准化法：

标准化法按照标准正态分布将一列上的值进行标准化，即为求z值，axis = 0 代表是轴的方向，取列方向上的值。

特征值的缩放‐‐区间缩放法：

特征值的归一化：

归一化即将一行特征的坐标转换成一个不含量纲(单位)的“单位向量”。

L1 和 L2 范式也会用于回归问题的正则化，L1范式的分母是向量各元素绝对值的和，可用于特征选择，L2范式的分母是向量各元素平方和的开方，可用于防止过拟合。

定量特征的二值化：

缺失特征值的弥补计算：

创建多项式特征：

基于线性的特征建立的模型不能探寻两个因子间是否存在交互关系，因而平方展开多项式，获取更多的特征，如：x1*x2 交互项特征构建模型，可以分析出两个因子的交互作用对目标的影响。

特征选择

特征选择：

数据预处理变换后，可以得到很多的特征，选择对于学习任务有帮助的特征，降低模型运行的时间和提升效率，例如：在处理文本内容时，当文本内容较多，会发生“维度灾难”；过多的维度会造成模型的可解释性变差。

特征选择方法1‐‐方差选择法：

特征选择方法2‐‐皮尔森相关系数法：

特征选择方法3‐‐基于森林的特征选择：

特征选择方法4‐‐递归特征消除法:

特征降维

线性判别分析法(LDA):

上面两张图将二维数据投影到一维的一条直线上，右图投影后红色和蓝色两类样本更为集中，且中心距更大。当然在实际应用中，我们的数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

主成分分析法(PCA)：

主成成分分析将鸢尾花数据集中的四个特征转换为两个重要的特征，并可以将特征转换成二维的数据在平面上进行展示。

代码演示-量纲缩放

演示内容：量纲的特征缩放

两种方法：标准化缩放法和区间缩放法

每种方法有两个例子：简单二维矩阵和iris数据集

公众号回复：“量纲缩放” 获取代码

发表于: 2020-08-082020-08-08 07:17:49
原文链接：https://kuaibao.qq.com/s/20200808A036WK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

特征工程特征处理

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

特征工程 特征处理

相关快讯

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

特征工程特征处理