前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >特征工程 特征处理

特征工程 特征处理

作者头像
DataScience
发布2020-08-11 17:15:38
6050
发布2020-08-11 17:15:38
举报
文章被收录于专栏:A2DataA2Data

前言:本文介绍了特征处理中的特征缩放、选择和降维,并用代码演示特征缩放中的标准化法和区间缩放法。

特征缩放

特征值缩放:

特征值的缩放‐‐标准化法:

标准化法按照标准正态分布将一列上的值进行标准化,即为求z值,axis = 0 代表是轴的方向,取列方向上的值。

特征值的缩放‐‐区间缩放法:

特征值的归一化:

归一化即将一行特征的坐标转换成一个不含量纲(单位)的“单位向量”。

L1 和 L2 范式也会用于回归问题的正则化,L1范式的分母是向量各元素绝对值的和,可用于特征选择,L2范式的分母是向量各元素平方和的开方,可用于防止过拟合。

定量特征的二值化:

缺失特征值的弥补计算:

创建多项式特征:

基于线性的特征建立的模型不能探寻两个因子间是否存在交互关系,因而平方展开多项式,获取更多的特征,如:x1*x2 交互项特征构建模型,可以分析出两个因子的交互作用对目标的影响。

特征选择

特征选择:

数据预处理变换后 ,可以得到很多的特征,选择对于学习任务有帮助的特征,降低模型运行的时间和提升效率,例如:在处理文本内容时,当文本内容较多,会发生“维度灾难”;过多的维度会造成模型的可解释性变差。

特征选择方法1‐‐方差选择法:

特征选择方法2‐‐皮尔森相关系数法:

特征选择方法3‐‐基于森林的特征选择:

特征选择方法4‐‐递归特征消除法:

特征降维

线性判别分析法(LDA):

上面两张图将二维数据投影到一维的一条直线上,右图投影后红色和蓝色两类样本更为集中,且中心距更大。当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

主成分分析法(PCA):

主成成分分析将鸢尾花数据集中的四个特征转换为两个重要的特征,并可以将特征转换成二维的数据在平面上进行展示。

代码演示-量纲缩放

演示内容:量纲的特征缩放

两种方法:标准化缩放法和区间缩放法

每种方法有两个例子:简单二维矩阵和iris数据集

公众号回复:“量纲缩放” 获取代码

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DataScience 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档