主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作
这里需要区分缺失值和空值的区别:
缺失值:缺失值指的是的数据原本是必须存在的,但实际上没有数据。根据数据及业务的理解,这个字段应当没有缺失值,但却有些观测没有数据,这个时候就要检查,看下是不是数据拼接的时候出现问题了。
空值:空值指的是实际存在可能为空的情况,所以空值不一定是数据问题,可能是观测的一种特征表现。
主要分为3类:删除记录、数据插补、不处理
数据插补的办法:
1)均值/中位数/众数插补
2)使用固定值:将缺失的值用一个常数表示
3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补
4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失
5)插值法
常用的处理办法包括:
1)删除含有异常值的记录
2)视为缺失值
3)平均值修正
4)不处理
数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。
1)同名异义
数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。
2)异名同义
数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同
3)单位不统一
如m和cm、美元和人民币之类等等
1)同一属性多次出现
2)同一属性命名不一致导致重复
数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。
常用的变换包括平方、开方、取对数、差分运算等
常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化、z-score标准化
常用的方法包括等宽法、等频法、聚类法
即利用已有的变量,组合构造出新的变量
独热编码采用N位状态寄存器来对N个可能的取值进行编码,每个状态都由独立的寄存器来表示,并且在任意时刻只有其中一位有效。
优点:能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量。
数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)——百度百科
对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。
通过特征(变量)合并来创建新特征维度,或者直接删除不相关的属性,常用的办法包括:
1)合并特征
2)逐步向前选择
3)逐步向后选择
4)决策树归纳
5)主成分分析(PCA)
指的是通过选择替代的、较小的数据来减少数据量。
1)直方图分箱近似分布
2)聚类
3)抽样
4)参数回归