大数据关键技术——数据预处理

我们在上一篇文章讲到了大数据的采集,当我们从网上采集到了这些数据以后,应该怎么进行下一步的工作呢?

其实现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。

为了提高数据挖掘的质量产生了数据预处理技术。

数据预处理

数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。

这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。

数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。

为什么要预处理数据?

(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)

(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)

(3)原始数据中存在的问题:

不完整 缺少属性值或仅仅包含聚集数据

含噪声 包含错误或存在偏离期望的离群值

不一致 用于商品分类的部门编码存在差异

而我们在使用数据过程中对数据有如下要求:

一致性、准确性、完整性、时效性、可信性、可解释性

由于获得的数据规模太过庞大,数据不完整、重复、杂乱,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间

数据预处理的方法

(1)数据清洗—— 去噪声和无关数据

(2)数据集成—— 将多个数据源中的数据结合起来存放在一个一致的数据存储中

(3)数据变换—— 把原始数据转换成为适合数据挖掘的形式

(4)数据规约—— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。

大数据预处理步骤

1.数据清洗

2.数据集成

3.数据归约

4.数据变换

5.数据离散化

数据选取参考原则

(1)尽可能富余属性名和属性值明确的含义

(2)统一多数据源的属性编码

(3)去除唯一属性

(4)去除重复属性

(5)去除可忽略字段

(6)合理选择关联字段

(7)进一步处理:

通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据

可能有些小的公司无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据供给或平台来收集数据。

在这里,为大家介绍一款大数据采集平台——观向数据

观向数据是一款针对品牌商、零售商的线上运营数据分析系统,汇集全网多平台、多维度数据,形成可视化报表,为企业提供行业分析、渠道监控、数据包等服务,帮助企业品牌发展提供科学化决策。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180911A0W1B600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券