前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据清理的最全指南

数据清理的最全指南

作者头像
加米谷大数据
发布2019-04-19 14:23:11
1.1K0
发布2019-04-19 14:23:11
举报
文章被收录于专栏:加米谷大数据加米谷大数据

清理和理解数据对结果的质量都会有很大影响。

目录

· 数据质量(合法性,准确性,完整性,一致性)

· 工作流程(检查,清洁,验证,报告)

· 检查(数据分析,可视化,软件包)

· 清理(无关数据,重复数据,类型转换,语法错误)

· 验证

· 总结

数据质量

合法性:数据符合定义的业务规则或约束的程度。

准确性:数据接近真实值的程度。

完整性:所有必需数据的已知程度。

一致性:数据在同一数据集内或跨多个数据集的一致程度。

具体判定标准检测方法见全文:

https://www.toutiao.com/i6670031809427800587/

工作流程

1.检查:检测不正确和不一致的数据。

2.清洁:修复或删除发现的异常。

3.验证:清洁后,检查结果以验证是否正确。

4.报告:记录所做更改和当前存储数据质量的报告。

清理

数据清理涉及基于问题和数据类型的不同技术。可以应用不同的方法,每种方法都有自己的权衡。总的来说,不正确的数据被删除,纠正或估算。

不相关的数据:

不相关的数据是那些实际上不需要的数据,并且不适合我们试图解决的问题。

重复项:

重复项是数据集中重复的数据点。

类型转换:

确保将数字存储为数字数据类型,日期应存储为日期对象,或Unix时间戳(秒数),依此类推。如果需要,可以将分类值转换为数字和从数字转换。

需要注意的是,无法转换为指定类型的值应转换为NA值(或任何值),并显示警告。这表示值不正确,必须修复。

语法错误:

见全文。

验证

完成后,应通过重新检查数据并确保其规则和约束确实存在来验证正确性。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档