专栏首页编程Python数据分析-数据预处理

Python数据分析-数据预处理

主题 数据预处理

一、数据清洗

主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

1. 缺失值处理

主要分为3类:删除记录、数据插补、不处理

数据插补的办法:

1)均值/中位数/众数插补

2)使用固定值:将缺失的值用一个常数表示

3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补

4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失

5)插值法

2. 异常值处理

常用的处理办法包括:

1)删除含有异常值的记录

2)视为缺失值

3)平均值修正

4)不处理

二、数据集成

数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。

1. 实体识别

1)同名异义

数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。

2)异名同义

数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同

3)单位不统一

如m和cm、美元和人民币之类等等

2. 冗余属性识别

1)同一属性多次出现

2)同一属性命名不一致导致重复

三、数据变换

1. 简单函数变换

常用的变换包括平方、开方、取对数、差分运算等

2. 规范化

常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化

3. 连续变量离散化(分箱)

常用的方法包括等宽法、等频法、聚类法

4. 变量构造(开发变量)

即利用已有的变量,组合构造出新的变量

5. 小波变换

这个也不清楚,就是提取特征变量的一种方法

四、数据规约

对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。

1. 属性规约

通过属性(变量)合并来创建新属性维度,或者直接删除不相关的属性,常用的办法包括:

1)合并属性

2)逐步向前选择

3)逐步向后选择

4)决策树归纳

5)主成分分析

2. 数值规约

指的是通过选择替代的、较小的数据来减少数据量。

1)直方图分箱近似分布

2)聚类

3)抽样

4)参数回归

五、python常用数据预处理函数

1)interpolate

一维、多维数据插值

2)unique

去除数据中的重复元素

3)isnull

判断是否空值

4)notnull

判断是否非空值

5)PCA

对指标变量矩阵进行主成分分析

6)random

生成随机矩阵

—End—

本文来自企鹅号 - SAMshare媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CCF大数据专家委:《2018年大数据发展趋势预测》

    数据观速递 数据观导读 数据观获悉,12月8日,在2017中国大数据技术大会(BDTC)上,CCF大数据专家委员会副秘书长、北京永信至诚科技股份有限公司高级副总...

    企鹅号小编
  • 如何在企业中融入机器学习

    世界早已过了工业革命,现在我们正经历着一场数字革命的时代。机器学习、人工智能和大数据分析是当今世界的现实。 我最近有机会与Talend公司产品和营销副总裁Cia...

    企鹅号小编
  • 这25个大数据术语,如果你不知道就别说自己懂大数据!

    如果你刚接触大数据,你可能会觉得这个领域很难以理解,无从下手。近日,Ramesh Dontha在DataConomy上连发两篇文章,扼要而全面地介绍了关于大数据...

    企鹅号小编
  • ML_Basic-特征预处理操作指南

    主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

    Sam Gor
  • 西工大开源拥挤人群数据集生成工具,大幅提升算法精度 | CVPR 2019

    近年来,因为拥挤人群计数在视频监控、公共安全方面的应用广泛,引起了不少学者的关注。

    AI科技大本营
  • 【应用】信用评分:第3部分 - 数据准备和探索性数据分析

    因此,**数据准备是任何数据挖掘项目的关键方面,包括信用评分卡的开发。 **这是CRISP-DM周期中最具挑战性和耗时的阶段。 项目总时间中至少70%,有时多于...

    陆勤_数据人网
  • 两会说要控制金融风险,问题是该怎么控?

    数据猿导读 互联网金融行业四年来发展如火如荼,有越来越多的互联网金融公司过于追逐公司规模和用户量,忽视了对风险的把控,产生了大量风险和隐患。在今年两会中,李克强...

    数据猿
  • 自服务数据共享与服务架构详解

    随着企业信息化、数字化的发展,对于数据管理者提出了更高的要求。自服务数据共享与服务架构是为了更好的解决数据管理者对数据管理中的数据的交换、资源的管理、数据的共...

    yuanyi928
  • 谁在恐惧大数据?——点评近期的大数据事件

    ? 阿里巴巴是“数据窃取者”吗?腾讯可以“监控”我的聊天记录吗?百度会记录我所有的搜索记录吗?最近,一系列关于数据的事件又重新把媒体和公众引向关于大数据的最初...

    小莹莹
  • 【推荐】移动互联时代的通信大数据价值将迎来兑现

     运营商已跨入大数据时代 由于网络的快速发展和智能机的快速拓展,目前已经进入移动互联网时代,移动数据流量大幅增加。   造就该趋势主要有两个原因:第一,...

    小莹莹

扫码关注云+社区

领取腾讯云代金券