专栏首页木东居士的专栏你了解你的数据吗(练气篇):数据接入和常见的坑

你了解你的数据吗(练气篇):数据接入和常见的坑

0x00 前言

数据一道,可深可浅,可大可小。同为数据人,新手和老鸟亦有很大差别。本篇是了解数据的入门篇,包含两部门内容:

  1. 数据接入,你的掌控力如何?主要聊一聊数据接入人员对自己接入数据的了解的程度。
  2. 数据的坑,你总结了多少规律?在数据接入和基本的数据处理中,会遇到很多数据异常,这些异常你是否已经总结出了规律并纳入到了自己的知识体系。

0x01 数据接入量,你知道多少?

如果你只是闷着头,来一个需求就接一个,而对于自己接入的数据一无所知,那就值得尽早做好打算了,因为不管是面试、汇报工作、亦或是老大们的好奇心,他们可能随时会向你发出这样的诘难:咱们集群总共多大的存储啊?现在有多大的数据量啊?总共接了多少个业务啊?日增量是多少啊,有多少条数据啊?按照这样的速度,集群还能撑多久?

面对上面的问题,你是否懵逼?如果有点懵,可以看一下下面的图,这是笔者认为需要了解的基本的数据内容。

了解数据接入的情况,应该算是最基本的要求,它意味着我们对自己负责的事情有了最基本的掌控力。对不同的人来讲,区别仅在于掌控的程度不同而已。

0x02 数据的坑,你总结了多少规律?

数据的坑无处不在,不管是接入、清洗亦或是模型计算,都会有遇到坑的地方。对于这些坑,你是否已经总结出了应对的套路?这个话题范围可能有点大,我们暂时将其缩小至数据的接入和基本的数据清洗过程。

现阶段,我将数据的坑,分为三部分:一为数据缺失,分为丢数据和字段缺失。二为业务层面的数据异常,比如数据中出现了不符合业务逻辑的取值。三为工程层面的数据异常,主要侧重数据ETL会遇到的异常。详细的一点的可以看下图。

注意,上面提到的都是数据异常,但是并没有说明数据异常的原因,而且也没有引入数据处理中工程上的坑。因为这两点和数据本身的理解上不是强耦合的,再加上不同数据处理流的特性会增加总结的难度,因此暂不讨论。

0xFF 总结

本篇是了解数据的一个基础篇,主要聊一聊数据接入和数据的坑这两个主题,没有讨论过多细化的内容。只为抛砖引玉,梳理大致的思路。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据治理平台工具前世今生

    伴随着企事业单位信息化不断的深入、各种技术持续的发展以及人们对数据治理的认知不断加深,数据治理工具在过去的20年也不断的发展,笔者以某世界500集团企业案例为原...

    木东居士
  • 下一个风口-基于数据湖架构下的数据治理

    随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心。数据湖,是可以容纳大量的原始数据的存...

    木东居士
  • 闲聊4年大数据经历

    木东居士
  • 硅谷观察之大数据篇(完整版)

    大数据文摘
  • 【聚焦】大数据的机会与挑战

    迎接大数据时代的来临,要如何运用既有优势,同时克服将到来的挑战呢?大学副教授洪士灏指出,硬软件整合是的机会,但业界的思维必须转型,要从纯硬件的代工制造业,...

    小莹莹
  • 魏凯:运营商刚挖到大数据宝库的皮毛

    ? 人来人往的展馆中究竟有多少人驻足展台?大数据可以告诉你。2015年中国国际信息通信展上,中国电信展出了大数据能力可视化系统,通过采集电信运营商及政府公共服...

    灯塔大数据
  • 十大令人惊奇的大数据真相

    ---- 如今,“大数据”是科技界当之无愧的热词,围绕着它有众多的新闻和炒作。最近的研究显示,2013年,全球范围内花费在大数据上的资金就高达近310亿美元。...

    灯塔大数据
  • 不仅要清楚如何收集数据,还要清楚如何创造数据

    业界估计数据每年的增长率在30%到50%之间,对于许多企业来说,每年将增长上PB的数据量。问题显然不是缺少数据,而是缺少“正确”的数据。 根据埃森哲近期的调查显...

    CDA数据分析师
  • 观点:2014年,小数据的一年

    2013可能也会被称为大数据的一年。明年,拥抱可能对你来说会更有用得多的一个旧趋势:小数据。 ? 今年可能已经听到了很多有关于大...

    小莹莹
  • 数博会特辑|总理、贵州省长和中央网信办如何分析大数据形式

    大数据文摘

扫码关注云+社区

领取腾讯云代金券