数据清洗

数据清洗

一般义的清洗
  1. 特殊字符 在数据清洗中最常见的就是特殊字符,一般的特殊字符可以直接替换掉如地址码中最常见的’#’,像这种直接替换为号即可。但有些字符确实有他的含义,比如说:‘4-6’,这个可能表示4号到六号,也可能是4号楼的6单元,具体代表什么,可能并不是简单的一种含义。这种时候,就需要人工介入,再无法确定的话,可能就需要人工去实地查看。 所以,通过使用技术手段,可以解决掉大多数的问题,但不容忽视的是,技术可能没办法解决所有问题(也可能,某些技术牛人确实可以做到解决所有问题)。
  2. 全角半角转换 数据由于来源或采集问题,可能会有全角的数字或字母,而一般的系统都不会允许有这种问题,所以需要将这些问题在清洗步骤中处理掉。
  3. 错/别字处理 错别字问题在数据清洗中是难度比较大的一部分工作,在这部分工作中,首先要找出错别字,并建立错别字对应的正确字符串的对应关系,然后使用程序批量的完成替换
  4. 空值检测 空值是要在数据清洗中过滤掉的,通过使用如FME类似的工具,可以很方便的完成空值的过滤。
数据一致性检测

逻辑性检测是指数据的各个字段中的值是否存在矛盾,比如在地址信息中,如果有一条要素省市区各字段值分别为:河南省郑州市西湖区。那么这条要素中的各个值之间就矛盾了!郑州市没有西湖区!

清洗中常用的工具与技术

如果要做地理数据的相关处理,那么FME是应该首选工具,当然,清洗也属于数据处理的范畴。但是前面提到的一些清洗,用FME实现的话会比较困难,比如:全角半角的问题的处理,又或者,简体转繁体,又或者汉语转拼音。所以除了FME还需要一些其他的技术,比如说:Python。但在进行数据处理的时候,要秉承一个原则,在有选择的时候,能少些代码就少些代码!

综上,在数据清洗中,能够掌握FME与Python基本就够了,如果你还会点正则,那就基本上是完美了!就是这样,各位,节日快乐!晚安!

本文分享自微信公众号 - 数据处理与分析(Qing_master),作者:文刀木公

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【以FME之名】从在线文档,到PDF!

    最近需要收集一些材料,在搞材料的时候,看到某网站上是有的,但是需要积分才能下载。 我连注册都没有,哪来的积分!

    数据处理与分析
  • FME应用之-Geohash decode

    昨天有个朋友在我的技术交流群里问,如何将geohash进行解码,变成经纬度? 如何解码,当然首选方式必须是我万能的FME啊!

    数据处理与分析
  • 正则在FME中的应用

    能看到此文,我就粗暴的认为你已经对FME有了一定的了解。不了解没关系可以去FME博客进行学习,也可以去看FME十分钟进行相关的了解。下面我将结合...

    数据处理与分析
  • Visual Studio 2008英文正式版已经发布在MSDN

    今天登陆MSDN发现Visual Studio 2008英文正式版已经发布,MSDN订阅者已经可以下载.这次公布的Visual Studio 2008包括所有T...

    张善友
  • ElasticSearch1.7之ik(中文)分词器的自定义分词扩展方式

    随着数据量的越来越大,有一些定义的关键词已经不再是常用词汇,超出了ES自带的ik分词词库范围,比如:“奥利给”等别称和新闻话题词;这就出现了一些现象,如搜索“奥...

    陈哈哈
  • 2019HDU多校赛第三场 HDU 6608 Fansblog(米勒拉宾判断素数 + 威尔逊定理 )

    威尔逊定理: 即:当且仅当 p为素数时:( p -1 )! ≡ -1 ( mod p )

    用户2965768
  • 洛谷P1313 计算系数【快速幂+dp】

    P1313 计算系数 题目描述 给定一个多项式(by+ax)^k,请求出多项式展开后x^n*y^m 项的系数。 输入输出格式 输入格式: 输入文件名为facto...

    Angel_Kitty
  • 2017"百度之星"程序设计大赛 - 资格赛【1001 Floyd求最小环 1002 歪解(并查集),1003 完全背包 1004 01背包 1005 打表找规律+卡特兰数】

    度度熊保护村庄 Accepts: 13 Submissions: 488 Time Limit: 2000/1000 MS (Java/Others)...

    Angel_Kitty
  • Deno 环境下的 TypeScript 开发入门手册

    在本文中,我会让你快速了解 Deno,并把它与 Node.js 进行比较,以此构建你的第一个 REST API。

    疯狂的技术宅
  • 全面了解 Nginx 到底能做什么

    本文只针对Nginx在不加载第三方模块的情况能处理哪些事情,由于第三方模块太多所以也介绍不完,当然本文本身也可能介绍的不完整,毕竟只是我个人使用过和了解到过得。...

    芋道源码

扫码关注云+社区

领取腾讯云代金券