Python数据预处理概述
对于数据分析而言,数据是显而易见的核心。但是并不是所有的数据都是有用的,大多数数据参差不齐,层次概念不清淅,数量级不同,这会给后期的数据分析和数据挖掘带来很大的麻烦,所以有必要进行数据预处理。
数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工作,已达到挖掘算法进行知识获取研究所要求的最低规范和标准。通常数据预处理包括:数据清洗、数据集成、数据变换、数据规约。
一:数据清洗
数据清洗是填充缺失数据、消除噪声数据等操作,主要通过分析“脏数据”的产生原因和存在形式,利用现有的数据挖掘手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量要求和应用要求的数据,从而提高数据集的质量,满足现阶段数据分析的需求。
1.数据质量 数据质量主要有10个维度:
数据质量问题
数据值质量问题的分类:
2.数据清洗的定义 数据清洗又叫数据清理或数据净化,主要用于数据仓库、数据挖掘和全面数据质量管理三个方面。
现今数据清晰研究主要涉及以下几方面:
3.数据清洗的原理 通过分析脏数据的产生原因及存在形式,对数据的过程进行考察、分析,并总结出一些方法(数理统计、数据挖掘或预定义规则),将脏数据转化为满足数据质量要求的数据。
4.数据清洗的基本方法
5.数据清洗模型简介
二:数据集成
数据集成是指将多个数据源中的数据合并并存放到一个一直的数据存储(如数据仓库)中,这些数据源可能包括多个数据库、数据立方体和一般文件。
三:数据变换
数据变换是指不同来源所得到的数据可能导致不一致,所以需要及你选哪个数据变换,构成一个适合数据挖掘的描述形式。 数据转换包含的内容:
四:数据规约
对海量数据进行复杂的数据分析和挖掘将需要很长的时间,使得这种分析不具有可操作性。海量数据规约技术可以减少数据集容量,但仍接近保持原数据的完整性。