专栏首页数据科学与人工智能【数据】数据预处理

【数据】数据预处理

小编邀请您,先思考:

1 数据预处理包括哪些内容?

2 如何有效完成数据预处理?

数据的质量和包含的有用信息量是决定一个机器学习算法能够学多好的关键因素。因此,我们在训练模型前评估和预处理数据就显得至关重要了。

数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,这里面经验的成分比较大。

一. 为什么要预处理数据

现实世界的数据总是或多或少存在各种各样的问题,比如:

1)不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据

2)含噪声的:包含错误或者“孤立点”

3)不一致的:在编码或者命名上存在差异

没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据,数据仓库需要对高质量的数据进行一致的集成。

二. 数据预处理的主要任务

1)数据清理

填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性

2)数据集成

集成多个数据库、数据立方体或文件

3)数据变换

规范化和聚集

4)数据归约

得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果

5)数据离散化

数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要

三. 数据清洗

现实数据并不总是完整的,往往由于设备异常,与原有数据不一致而被删除,因误解而没有录入的数据,对数据的改变没有进行日志记载等原因,导致数据存在空缺值。因此我们需要对缺失值进行处理,一般可以有以下方法:

a.忽略元组,即消除带有确实值得特征和样本,当类标号缺少时通常这么做

b.人工填写缺失值:工作量太大,可行性太低

c.使用全局变量填充空缺值,比如NaN、unknown等等

d.使用属性的平均值填充空缺值

e.使用与给定元组属于同一类的所有样本的平均值

f.使用最可能的值填充,比如像贝叶斯,决策树等这样基于推断的方法

四. 数据集成和变换

我们需要将多个数据源中的数据整合到一个一致的存储中,因为对现实世界中的同一实体,来自不同数据源的属性值,因不同的度量等原因可能是不同的。

有两种方法能使不同的特征有相同的取值范围:归一化和标准化

1)归一化(normalization)

归一化指的是将数据按比例缩放到[0,1],是最小-最大缩放的特例。当然我们也可以按照一定比例缩放使数据落入特定区间。

为了得到归一化结果,我们对每一个特征应用最小-最大缩放,如下:

2)标准化(standardization)

相对来说,标准化对于大部分机器学习算法更实用。原因是大部分线性模型比如Logistic回归和线性SVM在初始化权重参数时,要么选择0要么选择一个接近0的随机数。使用标准化,我们能将特征值缩放到以0为中心,标准差为1,即服从正态分布,这样更容易学习权重参数。

标准化公式如下:

五. 数据归约和离散化

数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间。数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果。而且用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。

数据归约策略

1)数据立方体聚集

最底层的方体对应于基本方体,基本方体对应于感兴趣的实体。并且在数据立方体中存在着不同级别的汇总,每个较高层次的抽象将进一步减少结果数据。数据立方体提供了对预计算的汇总数据的快速访问,在可能的情况下,对于汇总数据的查询应当使用数据立方体。

2)维归约

删除不相干的属性或维减少数据量。找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布,减少出现在发现模式上的属性的数目,使得模式更易于理解。并且可以使用启发式方法来选择或删除相关的维。

3)数据压缩

其中包含有损压缩和无损压缩。主要有字符串压缩和音视频压缩。

4)数值归约

通过选择替代的、较小的数据表示形式来减少数据量。包含有参方法和无参方法。

有参方法代表:线性回归,多元回归,对数线性模型等

无参方法代表:直方图,聚类,选样等

5)离散化和概念分层

离散化:通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。

概念分层:通过使用高层的概念(比如:少年、青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。

数据数值的离散化和概念分层生成一般存在以下方法:

a.分箱(binning)

分箱技术递归地用于结果划分,可以产生概念分层。

b.直方图分析(histogram)

直方图分析方法递归地应用于每一部分,可以自动产生多级概念分层。

c.聚类分析

将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。

d.基于熵的离散化

e.通过自然划分分段

六. 小结

本文我们简单介绍了数据挖掘中数据预处理的相关内容,只能说是浅尝辄止吧,期待更深入的研究。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【流程】数据科学的处理流程

    小编邀请您,先思考: 1 您是怎么做数据科学的? 2 您如何理解数据产品? ? 数据科学家知道把不同的理论和工具有机地结合在一起并最终形成特定的流程,进而依据这...

    陆勤_数据人网
  • 【数据科学家】揭秘数据科学家

    有人给予了大数据专家许多美好的称号,比如“数据开采者”、“数据建筑师”等,但其中最时髦的当属“数据科学家”。当记者在互联网上搜索“数据科学家”这个关键词时,看到...

    陆勤_数据人网
  • 数据应用指南:数据从哪里来?

    数据如何应用?值得思考、探索和实践! ---- 一切可记录的东西,就是数据。数据从哪里来?找到了源头,才好进行数据获取、整合、分析和应用。 数据从哪里来? ...

    陆勤_数据人网
  • 如何填报大数据相关专业? | Alfred数据室

    高考出分了,又是一年一度各位考生和家长手忙脚乱开始填报志愿的时候了。很多考生和家长纷纷咨询Alfred:大数据现在不是很火吗?大数据专业怎么样呀?应该填选择哪个...

    Alfred数据室
  • 【聚焦】大数据的机会与挑战

    迎接大数据时代的来临,要如何运用既有优势,同时克服将到来的挑战呢?大学副教授洪士灏指出,硬软件整合是的机会,但业界的思维必须转型,要从纯硬件的代工制造业,...

    小莹莹
  • 大数据催生新兴职业:数据分析师

      大数据是眼下非常时髦的热词,同时也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。近日,“改革进行时——关注大数据产业”走进...

    腾讯研究院
  • 0基础学习大数据,你需要了解的学习路线和方向?

    现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己?

    用户2292346
  • 你了解你的数据吗(练气篇):数据接入和常见的坑

    木东居士
  • 【重磅译文】大数据-风险管理新武器

    大数据文摘
  • 硅谷观察之大数据篇(完整版)

    大数据文摘

扫码关注云+社区

领取腾讯云代金券