前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据预处理有哪些方法?

数据预处理有哪些方法?

作者头像
加米谷大数据
发布2019-11-26 14:43:18
3.7K0
发布2019-11-26 14:43:18
举报
文章被收录于专栏:加米谷大数据

数据预处理的主要步骤分为:数据清理、数据集成、数据规约和数据变换。

数据清理

数据清理(data cleaning) 的主要思想是通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清理“数据。

1、缺失值的处理

针对缺失值的处理方法,主要是基于变量的分布特性和变量的重要性采用不同的方法。主要有几种:

删除变量:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除。

定值填充:工程中常见用-9999进行替代

统计量填充:若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况进行填充。

插值法填充:包括随机插值,多重差补法,热平台插补,拉格朗日插值,牛顿插值等

模型填充:使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。

2、离群点处理

基于绝对离差中位数(MAD):采用计算各观测值与平均值的距离总和的方法。

基于距离:通过定义对象之间的临近性度量,根据距离判断异常对象是否远离其他对象。

基于密度:离群点的局部密度显著低于大部分近邻点,适用于非均匀的数据集

基于聚类:利用聚类算法,丢弃远离其他簇的小簇。

3、噪声处理

通常的办法:对数据进行分箱操作,等频或等宽分箱,然后用每个箱的平均数,中位数或者边界值(不同数据分布,处理方法不同)代替箱中所有的数,起到平滑数据的作用。

数据集成

数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。

1、实体识别问题

2、冗余问题。用相关性检测冗余:数值型变量可计算相关系数矩阵,标称型变量可计算卡方检验。

3、数据值的冲突和处理:不同数据源,在统一合并时,保持规范化,去重。

数据规约

数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性。

1、维度规约

用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。

2、维度变换

维度变换是将现有数据降低到更小的维度,尽量保证数据信息的完整性。

数据变换

数据变换包括对数据进行规范化,离散化,稀疏化处理,达到适用于挖掘的目的。

1、规范化处理

对差别较大的数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。特别是基于距离的挖掘方法,聚类,KNN,SVM一定要做规范化处理。

2、离散化处理

数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。

3、稀疏化处理

针对离散型且标称变量,无法进行有序的LabelEncoder时,通常考虑将变量做0,1哑变量的稀疏化处理。

详细全文:

https://www.toutiao.com/i6759377247615844872/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档