专栏首页杨建荣的学习笔记关于数据质量的思考

关于数据质量的思考

最近和几个同事聊了下关于数据的一些问题,有一个问题引起了我的好奇。那就是数仓体系和大数据体系的数据质量差异。

因为各种原因,一份数据可能会被多处消费使用,有的用作精确数据可视化,比如报表,对账单等,实时性要求不是很高,一般是T+1的模式,有的用作趋势分析,或者潜在问题分析,对于数据集的时间周期要求较高,有些需要在海量数据中挖掘更多的数据价值,让单一的数据通过连接产生更多维度的意义,总体来说,大家对数据质量的需要不尽相同,有些人主要关注数据的准确性和一致性,有些人则关注数据的实时性和相关性,因此,只要数据能满足使用目的,就可以说数据质量符合要求。

来说说困扰我的数据质量疑问,来自于两拨人的反馈。

第一拨人是大数据方向的同事,他们反馈数据的准确性有时候很难保证,导致在做数据稽核和一些数据统计中,和真实数据的差异较大,这样也会导致一些工作比较被动,业务侧对此的信任度也会大打折扣,而纵观整个数据链路,有些已经可以实现实时流转,却很难直接点出某一处存在明显瓶颈。

而另外一拨人则是做数据统计方向的,他们对于数据有着天然的敏感性,他们对于数据的准确性要求很高。他们反馈数据质量的时机相对要早一些,不过很少反馈数据质量问题,一般就是数据问题需要补录数据,重新跑一些数据任务。

让第一拨人最纠结的是,整个数据流转的团队是同一批人,但是数据质量差别却这么大。

在我的理解中,数据仓库体系应该是大数据体系的一部分,或者说是前哨站,通过和两拨人的沟通,我的小结如下:

1)为什么统计方向的数据仓库体系的数据准确性要高一些,主要原因是它们对于数据质量有一套很清晰的评判标准,并且能够反向推动数据流转体系完善数据质量,比如一张表中的数据有1000万条,需要流转到数仓体系,会有多个维度的校验,比如自增ID,比如ID连续性,数据加载日志,数据预处理日志,数据处理日志,每一步都会详细的记录这些数据处理的进度,对于数据流转体系来说,很可能会有一些数据问题,但是无论是格式还是数据值,如果出现偏差,在统计体系中会更容易识别和分析出来,而这种反向作用力也可以促使流转技术体系不断的迭代升级,一旦出现问题,可以要求重新提供数据,这势必对后端的服务要求也会高一些,即数据处理的幂等性问题。

2)大数据体系的数据质量相对来说难以保障,一方面是因为大数据体系的工作大多数是数据的搬运工,可以从系统,规划等层面提出一些数据标准和规范,但是他们往往不是数据使用方,或者说他们的数据使用方对于数据的准确性没有那么敏感,所以这方面的把控力有限,也很少听到大数据侧会进行数据补录的工作。

3)有很多公司的统计数仓体系和大数据体系是割裂的,导致很多统计侧的数仓体系存储容量大到不需要下沉数据到大数据,而大数据侧会重复处理同一份数据,可能是不同的数据通道。

4)对于数据使用的角色定位不够清晰,比如要求统计体系提供一些数据挖掘,数据趋势的分析等,或者要求大数据提供很精确的数据报表等,除非整个数据链路足够健壮,有弹性,否则这种定位和角色很难让大家都找准自己的位置,相反可能会因为业务而产生为了上某一个技术而硬上的情形。

本文分享自微信公众号 - 杨建荣的学习笔记(jianrong-notes),作者:杨建荣

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一个跨平台数据迁移的方案优化

    如果有一套环境,业务优先级很高,服务器的服役时间比我工作时间都长,现在需要迁移到X86平台,而且经过评估,如果能够升级数据库的软件版本,可以使用到更多的特...

    jeanron100
  • 分库分表的一些策略思考

    最近对一个业务进行了架构改造,主要是对已有的存储过程进行改写,使用SQL的方式来实现,同时对已有的业务处理做事务降维,在性能上的提升效果非常明显,本来通过存...

    jeanron100
  • 一个复杂的数据需求的创新优化(r12笔记第96天))

    今天处理了一个蛮有意思的案例,正如我给开发同学所说的那样,方案有很多,但是我们需要明确需求之后,找到一个最合适的需求。 业务同学反馈,数据库中有...

    jeanron100
  • 盘古智库:数据湖-引导中国制造2025变革的数字宠儿

    <数据猿导读> 无论是为促销产品还是作为战略目标,大数据已然成为很多公司和机构过度使用的术语。笔者认为,数据基本就是两类,一类是人类轨迹产生的数据,另一类机器自...

    数据猿
  • DàYé玩转数据战略Step By Step

    我们先看看工业革命的演进路径,从1.0的蒸汽机时代,到2.0的电力、流水线和大规模生产时代,再到3.0的计算机自动化时代,最后是4.0的智能化时代。

    曲水流觞
  • 大数据到底应该如何学?大数据生态圈技术组件解析

    要说什么是大数据我想大家多少已经有所了解了,很多落地的案例已经深入到了我们的生活中。大数据具有数据量大、数据类型丰富复杂、数据增长速度快等特点,一切的数据分析必...

    大数据文摘
  • 大数据基本概念

    大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产...

    端碗吹水
  • 一篇文章详解大数据技术和应用场景

    说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不...

    民工哥
  • 能源大数据建设面临的问题与解决方案

    6月24日,在第四届世界智能大会城市能源大数据高峰论坛上,发布了国内首个城市能源大数据发展白皮书--《天津城市能源大数据发展白皮书2020》。

    数据前沿
  • 数据湖 | 一文读懂Data Lake的概念、特征、架构与案例

    本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;7...

    王知无

扫码关注云+社区

领取腾讯云代金券