你了解你的数据吗(练气篇):数据接入和常见的坑

0x00 前言

数据一道,可深可浅,可大可小。同为数据人,新手和老鸟亦有很大差别。本篇是了解数据的入门篇,包含两部门内容:

  1. 数据接入,你的掌控力如何?主要聊一聊数据接入人员对自己接入数据的了解的程度。
  2. 数据的坑,你总结了多少规律?在数据接入和基本的数据处理中,会遇到很多数据异常,这些异常你是否已经总结出了规律并纳入到了自己的知识体系。

0x01 数据接入量,你知道多少?

如果你只是闷着头,来一个需求就接一个,而对于自己接入的数据一无所知,那就值得尽早做好打算了,因为不管是面试、汇报工作、亦或是老大们的好奇心,他们可能随时会向你发出这样的诘难:咱们集群总共多大的存储啊?现在有多大的数据量啊?总共接了多少个业务啊?日增量是多少啊,有多少条数据啊?按照这样的速度,集群还能撑多久?

面对上面的问题,你是否懵逼?如果有点懵,可以看一下下面的图,这是笔者认为需要了解的基本的数据内容。

了解数据接入的情况,应该算是最基本的要求,它意味着我们对自己负责的事情有了最基本的掌控力。对不同的人来讲,区别仅在于掌控的程度不同而已。

0x02 数据的坑,你总结了多少规律?

数据的坑无处不在,不管是接入、清洗亦或是模型计算,都会有遇到坑的地方。对于这些坑,你是否已经总结出了应对的套路?这个话题范围可能有点大,我们暂时将其缩小至数据的接入和基本的数据清洗过程。

现阶段,我将数据的坑,分为三部分:一为数据缺失,分为丢数据和字段缺失。二为业务层面的数据异常,比如数据中出现了不符合业务逻辑的取值。三为工程层面的数据异常,主要侧重数据ETL会遇到的异常。详细的一点的可以看下图。

注意,上面提到的都是数据异常,但是并没有说明数据异常的原因,而且也没有引入数据处理中工程上的坑。因为这两点和数据本身的理解上不是强耦合的,再加上不同数据处理流的特性会增加总结的难度,因此暂不讨论。

0xFF 总结

本篇是了解数据的一个基础篇,主要聊一聊数据接入和数据的坑这两个主题,没有讨论过多细化的内容。只为抛砖引玉,梳理大致的思路。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java一日一条

传统的程序员将会被淘汰

要成为当今软件开发中受人尊敬的专业人士,你需要掌握各种技能,而且达到高水平的专业级别。最起码,你需要能够把你的英语解决方案翻译成软件实现。不仅技术上要正确,在业...

14120
来自专栏ImportSource

做开发的都应知道的关于架构的五件事

回想起2010年的时候,我还曾写过一篇标题为“你是一名架构师吗?”的文章,里边阐述了软件开发者和软件架构师的区别与联系。 尽管都已经过去八年之久,并且整个行业在...

429100
来自专栏非著名程序员

程序员不仅仅是写代码

? 很多程序员都普遍性地认为他们的工作就是写代码,这是错误的。写代码不应该是一个程序员的全部。 程序员的职责应该是解决问题。   当然在解决问题的过程中,常...

20090
来自专栏Java架构

献给迷茫的Java程序员,没时间虚度光阴了!当前你感到迷茫吗?架构师的定义?

20650
来自专栏BestSDK

什么是实践中,真正的大数据科学系统?

产生推荐   实际上,有非常多的方法可以由数据驱动产生推荐。例如在所谓的“协同过滤”里,所有用户的行为都可以被收集起来作为推荐的基础,然后分析发现哪些商品有相似...

391160
来自专栏祝威廉

高昂的PR,开源的困惑

我是个急性子,所以没怎么成功给社区提过PR,除非那个项目是我自己的,或者社区让我有直接Merge的权限。好比之前吐槽完SDL开发太慢后,自己直接fork了一份,...

9720
来自专栏养码场

程序员不能错过的28份技术知识图谱,你的进阶路上必备

本文是鹏哥多年来积累和收集的技术知识技能图谱,有的是鹏哥原创总结的最佳实践,有的是小伙伴们的分享。

12710
来自专栏Cloud Native - 产品级敏捷

使产品发生运营事故的概率大幅的降低 ?

2017.3.31, 深圳, Ken Fang 我们是否有轻量级、可视化的工程实践、工具、架构模式, 可使产品发生运营事故的概率能大幅的降低? 答案是有的: ...

19260
来自专栏非著名程序员

Google 面试学习手册,来看看谷歌,微软等大厂都面试什么

14440
来自专栏程序你好

敏捷开发:Product Backlog细化的艺术

我在Scrum培训课程中听到的一个常见问题是,“我们应该做多少Product Backlog,在Product Backlog中应该包含多少细节?”

14030

扫码关注云+社区

领取腾讯云代金券