Python数据分析-数据预处理

文章来源：企鹅号 - SAMshare

主题数据预处理

一、数据清洗

主要是删除原始数据集中无关的数据、重复的数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理异常值缺失值等操作

1. 缺失值处理

主要分为3类：删除记录、数据插补、不处理

数据插补的办法：

1）均值／中位数／众数插补

2）使用固定值：将缺失的值用一个常数表示

3）最近临插补：在记录中找到与缺失样本最接近的样本来进行插补

4）回归方法：剔除缺失的记录，根据其他样本数据建立拟合模型预测缺失

5）插值法

2. 异常值处理

常用的处理办法包括：

1）删除含有异常值的记录

2）视为缺失值

3）平均值修正

4）不处理

二、数据集成

数据挖掘的数据来自不同的数据源，数据集成就是将多个数据源合并在一个一致的数据存储中的过程。

1. 实体识别

1）同名异义

数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号，即描述不同的实体。

2）异名同义

数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期，但是叫法不同

3）单位不统一

如m和cm、美元和人民币之类等等

2. 冗余属性识别

1）同一属性多次出现

2）同一属性命名不一致导致重复

三、数据变换

1. 简单函数变换

常用的变换包括平方、开方、取对数、差分运算等

2. 规范化

常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化

3. 连续变量离散化（分箱）

常用的方法包括等宽法、等频法、聚类法

4. 变量构造（开发变量）

即利用已有的变量，组合构造出新的变量

5. 小波变换

这个也不清楚，就是提取特征变量的一种方法

四、数据规约

对于大数据集的处理十分耗时，所以大多数时候需要对数据进行规约，提高数据分析挖掘的速度。

1. 属性规约

通过属性（变量）合并来创建新属性维度，或者直接删除不相关的属性，常用的办法包括：

1）合并属性

2）逐步向前选择

3）逐步向后选择

4）决策树归纳

5）主成分分析

2. 数值规约

指的是通过选择替代的、较小的数据来减少数据量。

1）直方图分箱近似分布

2）聚类

3）抽样

4）参数回归

五、python常用数据预处理函数

1）interpolate

一维、多维数据插值

2）unique

去除数据中的重复元素

3）isnull

判断是否空值

4）notnull

判断是否非空值

5）PCA

对指标变量矩阵进行主成分分析

6）random

生成随机矩阵

—End—

”欢迎关注，嘻嘻~”

发表于: 2017-12-162017-12-16 11:24:50
原文链接：http://kuaibao.qq.com/s/20171216G07RQ100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python数据分析-数据预处理

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐