前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据清洗

数据清洗

作者头像
数据处理与分析
发布2019-07-31 16:38:09
1.6K0
发布2019-07-31 16:38:09
举报
数据清洗
一般义的清洗
  1. 特殊字符 在数据清洗中最常见的就是特殊字符,一般的特殊字符可以直接替换掉如地址码中最常见的’#’,像这种直接替换为号即可。但有些字符确实有他的含义,比如说:‘4-6’,这个可能表示4号到六号,也可能是4号楼的6单元,具体代表什么,可能并不是简单的一种含义。这种时候,就需要人工介入,再无法确定的话,可能就需要人工去实地查看。 所以,通过使用技术手段,可以解决掉大多数的问题,但不容忽视的是,技术可能没办法解决所有问题(也可能,某些技术牛人确实可以做到解决所有问题)。
  2. 全角半角转换 数据由于来源或采集问题,可能会有全角的数字或字母,而一般的系统都不会允许有这种问题,所以需要将这些问题在清洗步骤中处理掉。
  3. 错/别字处理 错别字问题在数据清洗中是难度比较大的一部分工作,在这部分工作中,首先要找出错别字,并建立错别字对应的正确字符串的对应关系,然后使用程序批量的完成替换
  4. 空值检测 空值是要在数据清洗中过滤掉的,通过使用如FME类似的工具,可以很方便的完成空值的过滤。
数据一致性检测

逻辑性检测是指数据的各个字段中的值是否存在矛盾,比如在地址信息中,如果有一条要素省市区各字段值分别为:河南省郑州市西湖区。那么这条要素中的各个值之间就矛盾了!郑州市没有西湖区!

清洗中常用的工具与技术

如果要做地理数据的相关处理,那么FME是应该首选工具,当然,清洗也属于数据处理的范畴。但是前面提到的一些清洗,用FME实现的话会比较困难,比如:全角半角的问题的处理,又或者,简体转繁体,又或者汉语转拼音。所以除了FME还需要一些其他的技术,比如说:Python。但在进行数据处理的时候,要秉承一个原则,在有选择的时候,能少些代码就少些代码!

综上,在数据清洗中,能够掌握FME与Python基本就够了,如果你还会点正则,那就基本上是完美了!就是这样,各位,节日快乐!晚安!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据清洗
    • 一般义的清洗
      • 数据一致性检测
        • 清洗中常用的工具与技术
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档