Python数据分析-数据预处理

主题 数据预处理

一、数据清洗

主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

1. 缺失值处理

主要分为3类:删除记录、数据插补、不处理

数据插补的办法:

1)均值/中位数/众数插补

2)使用固定值:将缺失的值用一个常数表示

3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补

4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失

5)插值法

2. 异常值处理

常用的处理办法包括:

1)删除含有异常值的记录

2)视为缺失值

3)平均值修正

4)不处理

二、数据集成

数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。

1. 实体识别

1)同名异义

数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。

2)异名同义

数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同

3)单位不统一

如m和cm、美元和人民币之类等等

2. 冗余属性识别

1)同一属性多次出现

2)同一属性命名不一致导致重复

三、数据变换

1. 简单函数变换

常用的变换包括平方、开方、取对数、差分运算等

2. 规范化

常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化

3. 连续变量离散化(分箱)

常用的方法包括等宽法、等频法、聚类法

4. 变量构造(开发变量)

即利用已有的变量,组合构造出新的变量

5. 小波变换

这个也不清楚,就是提取特征变量的一种方法

四、数据规约

对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。

1. 属性规约

通过属性(变量)合并来创建新属性维度,或者直接删除不相关的属性,常用的办法包括:

1)合并属性

2)逐步向前选择

3)逐步向后选择

4)决策树归纳

5)主成分分析

2. 数值规约

指的是通过选择替代的、较小的数据来减少数据量。

1)直方图分箱近似分布

2)聚类

3)抽样

4)参数回归

五、python常用数据预处理函数

1)interpolate

一维、多维数据插值

2)unique

去除数据中的重复元素

3)isnull

判断是否空值

4)notnull

判断是否非空值

5)PCA

对指标变量矩阵进行主成分分析

6)random

生成随机矩阵

—End—

”欢迎关注,嘻嘻~”

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171216G07RQ100?refer=cp_1026

相关快讯

扫码关注云+社区