主题 数据预处理
一、数据清洗
主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作
1. 缺失值处理
主要分为3类:删除记录、数据插补、不处理
数据插补的办法:
1)均值/中位数/众数插补
2)使用固定值:将缺失的值用一个常数表示
3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补
4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失
5)插值法
2. 异常值处理
常用的处理办法包括:
1)删除含有异常值的记录
2)视为缺失值
3)平均值修正
4)不处理
二、数据集成
数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。
1. 实体识别
1)同名异义
数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。
2)异名同义
数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同
3)单位不统一
如m和cm、美元和人民币之类等等
2. 冗余属性识别
1)同一属性多次出现
2)同一属性命名不一致导致重复
三、数据变换
1. 简单函数变换
常用的变换包括平方、开方、取对数、差分运算等
2. 规范化
常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化
3. 连续变量离散化(分箱)
常用的方法包括等宽法、等频法、聚类法
4. 变量构造(开发变量)
即利用已有的变量,组合构造出新的变量
5. 小波变换
这个也不清楚,就是提取特征变量的一种方法
四、数据规约
对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。
1. 属性规约
通过属性(变量)合并来创建新属性维度,或者直接删除不相关的属性,常用的办法包括:
1)合并属性
2)逐步向前选择
3)逐步向后选择
4)决策树归纳
5)主成分分析
2. 数值规约
指的是通过选择替代的、较小的数据来减少数据量。
1)直方图分箱近似分布
2)聚类
3)抽样
4)参数回归
五、python常用数据预处理函数
1)interpolate
一维、多维数据插值
2)unique
去除数据中的重复元素
3)isnull
判断是否空值
4)notnull
判断是否非空值
5)PCA
对指标变量矩阵进行主成分分析
6)random
生成随机矩阵
—End—
”欢迎关注,嘻嘻~”
领取专属 10元无门槛券
私享最新 技术干货