前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python数据分析-数据预处理

Python数据分析-数据预处理

作者头像
企鹅号小编
发布2018-02-28 09:49:07
1.8K0
发布2018-02-28 09:49:07
举报
文章被收录于专栏:编程编程

主题 数据预处理

一、数据清洗

主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

1. 缺失值处理

主要分为3类:删除记录、数据插补、不处理

数据插补的办法:

1)均值/中位数/众数插补

2)使用固定值:将缺失的值用一个常数表示

3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补

4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失

5)插值法

2. 异常值处理

常用的处理办法包括:

1)删除含有异常值的记录

2)视为缺失值

3)平均值修正

4)不处理

二、数据集成

数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。

1. 实体识别

1)同名异义

数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。

2)异名同义

数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同

3)单位不统一

如m和cm、美元和人民币之类等等

2. 冗余属性识别

1)同一属性多次出现

2)同一属性命名不一致导致重复

三、数据变换

1. 简单函数变换

常用的变换包括平方、开方、取对数、差分运算等

2. 规范化

常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化

3. 连续变量离散化(分箱)

常用的方法包括等宽法、等频法、聚类法

4. 变量构造(开发变量)

即利用已有的变量,组合构造出新的变量

5. 小波变换

这个也不清楚,就是提取特征变量的一种方法

四、数据规约

对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。

1. 属性规约

通过属性(变量)合并来创建新属性维度,或者直接删除不相关的属性,常用的办法包括:

1)合并属性

2)逐步向前选择

3)逐步向后选择

4)决策树归纳

5)主成分分析

2. 数值规约

指的是通过选择替代的、较小的数据来减少数据量。

1)直方图分箱近似分布

2)聚类

3)抽样

4)参数回归

五、python常用数据预处理函数

1)interpolate

一维、多维数据插值

2)unique

去除数据中的重复元素

3)isnull

判断是否空值

4)notnull

判断是否非空值

5)PCA

对指标变量矩阵进行主成分分析

6)random

生成随机矩阵

—End—

本文来自企鹅号 - SAMshare媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - SAMshare媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档