数据挖掘中的数据清洗方法大全

作者:章华燕

编辑:黄俊嘉

在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如数据缺失 、数据值异常 等。对于这些情况,如果不加以处理,那么会直接影响到最终挖掘模型建立后的使用效果,甚至是使得最终的模型失效,任务失败。所以对于数据挖掘工程师来说,掌握必要的数据清洗方法是很有必要的!

接下来本文就依次讲解如何处理

数据值缺失数据值异常

两种情况的处理。

1. 缺失值的处理

如下图所示,当我们在进行数据挖掘的过程中,往往会出现如下图所示的情况:某些样本的个别属性出现缺失的情况。

那么出现数据缺失的情况,我们应该怎么处理呢?

1.1 删除缺失值

当样本数很多的时候,并且出现缺失值的样本在整个的样本的比例相对较小,这种情况下,我们可以使用最简单有效的方法处理缺失值的情况。那就是将出现有缺失值的样本直接丢弃。这是一种很常用的策略。

缺点: 改变了样本的数据分布,并且对于缺失值过多的情况无法适用。

1.2 均值填补法

根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。

缺点: 改变了数据的分布,还有就是有的优化问题会对方差优化,这样会让对方差优化问题变得不准确。

1.3 热卡填补法

对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有变量按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。

缺点: 太麻烦。与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时。

1.4 最近距离决定填补法

假设现在为时间y,前一段时间为时间x,然后根据x的值去把y的值填补好。

缺点: 一般就是在时间因素决定不显著的时候,比如一天的气温,一般不会突然降到很低,然后第二天就升的很高。但是对时间影响比较大的,可能就不可以了。

1.5 回归填补法

假设我y属性存在部分缺失值,然后我知道x属性。然后我用回归方法对没有缺失的样本进行训练模型,再把这个值的x属性带进去,对这个y属性进行预测,然后填补到缺失处。当然,这里的x属性不一定是一个属性,也可以是一个属性组,这样能够减少单个属性与y属性之间的相关性影响。

缺点: 由于是根据x属性预测y属性,这样会让属性之间的相关性变大。这可能会影响最终模型的训练。

1.6 多重填补方法(M-试探法)

它是基于贝叶斯理论的基础上,然后用EM算法来实现对缺失值进行处理的算法。对每一个缺失值都给M个缺失值,这样数据集就会变成M个,然后用相同的方法对这M个样本集进行处理,得到M个处理结果,总和这M个结果,最终得到对目标变量的估计。其实这个方法很简单,就是我尽量多做模型,然后找出最好的,我就叫它M-试探法吧。

1.7 k-最近邻法

先根绝欧氏距离和马氏距离函数来确定具有缺失值数据最近的k个元祖,然后将这个k个值加权(权重一般是距离的比值吧)平均来估计缺失值。

1.8 有序最近邻法

这个方法是在K-最近邻法的基础上,根据属性的缺失率进行排序,从缺失率最小的进行填补。这样做的好处是讲算法处理后的数据也加入到对新的缺失值的计算中,这样即使丢了很多数据,依然会有很好的效果。在这里需要注意的是,欧式距离不考虑各个变量之间的相关性,这样可能会使缺失值的估计不是最佳的情况,所以一般都是用马氏距离进行最近邻法的计算。

1.9 基于贝叶斯的方法

就是分别将缺失的属性作为预测项,然后根据最简单的贝叶斯方法,对这个预测项进行预测。但是这个方法有一个缺点,就是说不能把之前的预测出来的数据加入到样本集,会丢失一些数据,会影响到预测。所以现在就是对属性值进行重要性排序,然后把重要的先预测出来,在加入新的数据集,再用新的数据集预测第二个重要的属性,这样一直处理到最后为止。

2. 异常值的检测与处理

未完待续

敬请期待

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-11-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

资料 | Google发布机器学习术语表 (中英对照)

源 | TensorFlow 回复 20180320 下载PDF版 Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了...

3208
来自专栏机器学习算法与Python学习

解决决策树的过拟合

参看书籍:Machine Learning(Tom Mitchell) 之前我们已经比较详细的介绍啦决策树的相关知识,如ID3(Machine Learning...

3198
来自专栏大数据挖掘DT机器学习

隐马尔可夫模型攻略

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然...

34111
来自专栏人工智能

6种机器学习算法要点

本文旨在为人们提供一些机器学习算法,这些算法的目标是获取关于重要机器学习概念的知识,同时使用免费提供的材料和资源。当然选择有很多,但哪一个是最好的?哪两个互相补...

1999
来自专栏企鹅号快讯

机器学习算法实战

目 录 逻辑回归算法步骤简述 选择输入函数:sigmoid函数 选择优化算法:梯度上升法 观察数据集 批梯度上升训练 随机梯度上升训练 推荐阅读时间: 10m...

1895
来自专栏智能算法

基础聚类算法:K-means算法

一、算法简介: 俗话说:“物以类聚,人以群分”,聚类算法不同于分类算法,对于一个 分类器 ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一...

3335
来自专栏AI研习社

Google 发布官方中文版机器学习术语表

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有...

741
来自专栏数说工作室

造出一艘logistic模型 | 【logistic从生产到使用】(下) | 数说 · 算法

前几天飞扬博士更新了一篇算法文章,关于softmax regression的,它是logistic模型的扩展,因此要是能有些logistic regressio...

2363
来自专栏AI科技大本营的专栏

Google发布机器学习术语表 (中英对照)

来源 | TensorFlow Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了一般的机器学习术语和 TensorF...

2703
来自专栏AI科技评论

干货 | Google发布官方中文版机器学习术语表

本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 本文中每个释义中的加粗概念都可以在本文中检索到。 建议收藏~ A/B 测试 (A/...

2843

扫描关注云+社区