首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

走进大数据 浅谈数据清洗

//

One.数据清洗的流程

//

首先要先做需求分析,然后进行数据获取(事先已经做好数据采集),拿到数据后就需要进行数据清洗,因为采集过来的数据必定包含某些脏数据或者缺失的数据,接下来是对数据进行特征划分,这一步骤比较麻烦,然后就是算法选择,当然选择性能速度最好的那个,选择好算法后进行调优,提高速度以及性能,这一步需要检验效果如何,如果没什么变化,就要返回前几步骤找找问题,主要还是两方面的问题查找,就是数据有问题还是算法有问题。具体还要回到数据清洗和特征划分重新优化,如果调优之后有明显效率和速度上的改善,就可以测试了,测试没问题开始项目上线

//

Two.数据清洗的重要性

//

数据清洗是很重要的,因为我们后面的工作要依赖于我们数据清洗后的数据,数据清洗后的数据的质量直接影响我们后续的工作. 因为数据源没有经过处理的数据包含很多脏数据,无效数有缺失值的数据,有异常错误的数据,如果不经过处理,这些数据会严重阻碍数据分析后的结果.

数据清洗要考虑几点

1.数据缺失值的处理 2,数据异常的处理 3,重复数据的处理 4,无效脏数据的处理

一.对于数据缺失值的处理:

可以选择直接删除,简单暴力,也可以选择自己补全值,那么在什么时候选择什么方法就是我们需要考虑的问题。

如果要删除的维度数据对于整体影响不大的话,那么是可以进行删除的,但是如果这个要删除的维度数据很重要的话我们就不能选择直接删除了.

1.直接删除:简单粗暴的方法,但是只适用于那种删除后不太影响整体数据的数据

2.采用平均值填补:计算当前这一列的数据的平均值,比如说某个人的数学成绩缺失,就可以用所有人的数学成绩,去取平均值.

3.用“Unknown”去填补缺失的值,但是不建议去使用,因为在用算法进行分析的时候,这个字段会成为一个新维度.会影响数据分析结果.

二:对于数据异常的处理

可以直接删除异常值也可以选择利用盖帽法去处理.用其他正常的值去代替异常值

三.对于重复数据的处理

解决方法很简单,直接去掉重复值

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190923A08KJG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券