数据挖掘之数据预处理学习笔记数据预处理目的主要任务

数据预处理目的

保证数据的质量,包括确保数据的准确性、完整性和一致性

主要任务

数据清理

填写缺失的值、光滑噪声数据、识别或者删除离群的点,先解决这些脏数据,否者会影响挖掘结果的可信度 噪声数据:所测量数据的随机误差或者方差

数据集成

比如,将多个数据源上的数据合并,同一个概念的数据字段可能名字不同,导致不一致和冗余,这里需要处理

数据规约

将巨大的数据规模变小,又不损害数据的挖掘结果,比如在数学建模里通过SPSS来降维,包括维规约(主成分分析法)和数值规约(数据聚集或者是回归)

回归:用一个函数拟合数据来光滑数据

离群点分析:通过聚类来检测离群点,聚类将类似的值组织成一个群或者簇,落在群或者簇的值视为离群点


数据清理是一个过程

数据清理第一步就是偏差检测 元数据:使用任何你可能具有的相关数据性质的知识,这种知识或“关于数据的数据”就是元数据

可以使用数据清洗工具(比如简单的拼写错误)和数据审计工具(分析数据发现规则和联系)进行偏差检测,使用数据迁移工具进行数据变换

合并来自多个数据存储的数据

冗余和相关分析 一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余

有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用χ2(卡方)检验。对于数值属性,我们使用相关系数(correlation coefficient)协方差(covariance),它们都评估一个属性的值如何随另一个变化。

1.标称数据的χ2相关检验 概率论数理统计那一块的知识 举个例子 (点击图片链接查看) ![XSS_6_0KNF6ETY92HR5TTG.png

四格表资料的卡方检验用于进行两个率或两个构成比的比较。

  1. 专用公式: 若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式) 自由度v=(行数-1)(列数-1)=1
  2. 应用条件: 要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

2.数值数据的相关系数 对于数值数据,我们可以通过计算属性A和B的相关系数(又称Pearson积矩系数,Pearson’s product moment coefficient),用发明者Karl Pearson的名字命名),估计这两个属性的相关度rA,B

20121010023950795.jpg

其中,n是元组的个数,ai和bi分别是元组i在A和B上的值,A和B分别是A和B的均值,σA和σB分别是A和B的标准差,而是AB叉积和(即对于每个元组,A的值乘以该元组B的值)。注意,-1≤rA,B≤+1。如果rA,B大于0,则A和B是正相关的,这意味着A值随B值的增加而增加。该值越大,相关性越强(即每个属性蕴涵另一个的可能性越大)。因此,一个较高的rA,B值表明A(或B)可以作为冗余而被删除。

如果该结果值等于0,则A和B是独立的,并且它们之间不存在相关性。如果该结果值小于0,则A和B是负相关的,一个值随另一个减少而增加。这意味着每一个属性都阻止另一个出现。

3.数值数据的协方差 协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法,它衡量两个属性如何一起变化

20121010024132450.jpg

除了检测属性间的冗余外,还得检测元组级的重复 去规范化表(denormalized table)的使用(这样做通常是通过避免连接来改善性能)是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据的某些出现,但未更新所有的出现。98例如,如果订单数据库包含订货人的姓名和地址属性,而不是这些信息在订货人数据库中的码,则差异就可能出现,如同一订货人的名字可能以不同的地址出现在订单数据库中。

维规约(减少属性)、数量规约(减少数量)和数据压缩

1、小波变换 离散小波变换(DWT)是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量X′。两个向量具有相同的长度。当这种技术用于数据归约时,每个元组看做一个n维数据向量,即X=(x1,x2,…,xn),描述n个数据库属性在元组上的n个测量值1。 相关连接:小波变换 2、主成分分析 主成分分析(principal components analysis)或PCA(又称Karhunen-Loeve或K-L方法)搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原数据投影到一个小得多的空间上,导致维归约。 相关连接:主成分分析详解 3、属性子集选择 属性子集选择1通过删除不相关或冗余的属性(或维)减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

使用决策树模型是不错的办法

20121010030858634.jpg

4、回归和对数线性模型 使用线性回归或者多元回归,光滑数据,也可以使用SPSS回归拟合 5、直方图 不解释 6、聚类 聚类技术把数据元组看做对象。它将对象划分为群或簇,使得在一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。 同样可以使用SPSS聚类进行分析 相关连接:聚类分析解析 相关连接:四种聚类算法 7、抽样 簇抽样、分层抽样不解释 8、数据立体聚集 数据立方体存储多维聚集信息。例如,图显示了一个数据立方体,用于AllElectronics的所有分店每类商品年销售的多维数据分析。每个单元存放一个聚集值,对应于多维空间的一个数据点。(为清晰起见,只显示了某些单元的值。)每个属性都可能存在概念分层,允许在多个抽象层进行数据分析。例如,branch的分层使得分店可以按它们的地址聚集成地区。数据立方体提供对预计算的汇总数据进行快速访问,因此适合联机数据分析和数据挖掘。 后文详细介绍...

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

R语言数据可视化之五种数据分布图制作

网址:http://www.cnblogs.com/muchen/p/5430536.html

2071
来自专栏人工智能LeadAI

如何使用sklearn进行数据挖掘

1.1、数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《...

3019
来自专栏机器之心

教程 | 如何使用DeepFake实现视频换脸

2.5K3
来自专栏AI研习社

Github 项目推荐 | 用于 C/C++、Java、Matlab/Octave 的特征选择工具箱

FEAST 是用于 C/C++、Java、Matlab/Octave 的特征选择工具集合,它提供了基于滤波器特征选择算法的常用互信息的实现以及 RELIEF 的...

4958
来自专栏量子位

亚马逊发布新版MXNet:支持英伟达Volta和稀疏张量

安妮 编译自 AWS官博 量子位 出品 | 公众号 QbitAI Apache MXNet v0.12来了。 今天凌晨,亚马逊宣布了MXNet新版本,在这个版本...

4016
来自专栏量子位

有笔记本就能玩的体感游戏!TensorFlow.js实现体感格斗教程

小时候的你在游戏中搓着手柄,在现实中是否也会模仿这《拳皇》的动作?用身体控制游戏角色的体感游戏很早就已出现,但需要体感手柄(Wii)或体感摄像头(微软Kinec...

2333
来自专栏数据小魔方

如何处理地图投影转换

最近学习地理信息可视化总是遇到投影的麻烦,包括前段时间输出两篇关于simple features的分享中,其中没有特别处理投影的问题,老司机一看就能看出其中存在...

1633
来自专栏AI研习社

阿里将 TVM 融入 TensorFlow,在 GPU 上实现全面提速

AI 研习社按,日前,阿里机器翻译团队和 PAI 团队发表博文,阐述将 TVM 引入 TensorFlow,可以带来至少 13 倍的 batch 矩阵相乘(ma...

1942
来自专栏大数据挖掘DT机器学习

使用TextRank算法为文本生成关键字和摘要

TextRank算法基于PageRank,用于为文本生成关键字和摘要。 目录[-] PageRank 使用TextRank提取关键字 使用TextRank提取关...

4685
来自专栏CDA数据分析师

如何使用R语言解决可恶的脏数据

在数据分析过程中最头疼的应该是如何应付脏数据,脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误,所以必须谨慎的处理那些脏数据。 脏数据的存在形式主要有如下...

2315

扫码关注云+社区

领取腾讯云代金券