专栏首页加米谷大数据数据清理的最全指南

数据清理的最全指南

清理和理解数据对结果的质量都会有很大影响。

目录

· 数据质量(合法性,准确性,完整性,一致性)

· 工作流程(检查,清洁,验证,报告)

· 检查(数据分析,可视化,软件包)

· 清理(无关数据,重复数据,类型转换,语法错误)

· 验证

· 总结

数据质量

合法性:数据符合定义的业务规则或约束的程度。

准确性:数据接近真实值的程度。

完整性:所有必需数据的已知程度。

一致性:数据在同一数据集内或跨多个数据集的一致程度。

具体判定标准检测方法见全文:

https://www.toutiao.com/i6670031809427800587/

工作流程

1.检查:检测不正确和不一致的数据。

2.清洁:修复或删除发现的异常。

3.验证:清洁后,检查结果以验证是否正确。

4.报告:记录所做更改和当前存储数据质量的报告。

清理

数据清理涉及基于问题和数据类型的不同技术。可以应用不同的方法,每种方法都有自己的权衡。总的来说,不正确的数据被删除,纠正或估算。

不相关的数据:

不相关的数据是那些实际上不需要的数据,并且不适合我们试图解决的问题。

重复项:

重复项是数据集中重复的数据点。

类型转换:

确保将数字存储为数字数据类型,日期应存储为日期对象,或Unix时间戳(秒数),依此类推。如果需要,可以将分类值转换为数字和从数字转换。

需要注意的是,无法转换为指定类型的值应转换为NA值(或任何值),并显示警告。这表示值不正确,必须修复。

语法错误:

见全文。

验证

完成后,应通过重新检查数据并确保其规则和约束确实存在来验证正确性。

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 我国大数据发展具有独特优势及政策支持解读

    大数据是信息化发展到一定阶段的产物。随着信息技术和人类生产生活深度融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会进步、...

    加米谷大数据
  • 大数据培训出来后就业前景及工资怎么样?

    作为新一轮的技术热点,大数据所受到得到关注是空前的,并且在这两年的发展当中,企业对于大数据的重视程度还在进一步上升,企业基于大数据业务开展所需要的相关岗位人才,...

    加米谷大数据
  • 大数据的三类核心技术

    Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理;

    加米谷大数据
  • 中科点击:大数据解决方案重在应用场景挖掘

    互联网移动互联网的高速发展,数据信息的爆炸式增长,将我们带到一个全新的大数据时代,一时间,“大数据”变成一个高大上的词汇,围绕“大数据”衍生出来的东西也越来越多...

    拼命三郎
  • 在大数据时代,每家公司都要有大数据部门吗?

    <数据猿导读> 在大数据时代,每家公司都要有自己的大数据部门吗? 结论也不能下的太武断。如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回...

    数据猿
  • 大数据时代,各个行业CIO们怎么看?

      近日来,有幸和国内不同行业的CIO(医疗、教育、互联网、金融等)交流了大数据的看法,听了听他们一线用户对于大数据的理解,总体来看他们对于大数据本身充满了积...

    腾讯研究院
  • 这10大行业的痛点,如何用大数据解决

    大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点,随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实...

    钱塘数据
  • 中润普达—大数据和人工智能产业发展,离不开中文认知技术的突破

    作者:中润普达 中文语义识别技术的突破将推动人工智能产业化,从而形成可持续的大数据生态圈。 11月24日在北京召开的“2017互联网+智慧中国年会”上,中润普...

    钱塘数据
  • 深度|大数据服务及未来:人工智能+大数据生态模式

    2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……。”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲...

    灯塔大数据
  • 投稿 | 大数据服务还是那个大数据服务吗?

    <数据猿导读> 目前“人工智能”无疑是最流行的词之一,“大数据”是自2012年以来的流行词之一,现在大大小小的企业服务、论坛上都充斥着有关大数据、人工智能的内容...

    数据猿

扫码关注云+社区

领取腾讯云代金券