前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于数据质量的思考

关于数据质量的思考

作者头像
jeanron100
发布2020-09-10 14:58:45
4980
发布2020-09-10 14:58:45
举报

最近和几个同事聊了下关于数据的一些问题,有一个问题引起了我的好奇。那就是数仓体系和大数据体系的数据质量差异。

因为各种原因,一份数据可能会被多处消费使用,有的用作精确数据可视化,比如报表,对账单等,实时性要求不是很高,一般是T+1的模式,有的用作趋势分析,或者潜在问题分析,对于数据集的时间周期要求较高,有些需要在海量数据中挖掘更多的数据价值,让单一的数据通过连接产生更多维度的意义,总体来说,大家对数据质量的需要不尽相同,有些人主要关注数据的准确性和一致性,有些人则关注数据的实时性和相关性,因此,只要数据能满足使用目的,就可以说数据质量符合要求。

来说说困扰我的数据质量疑问,来自于两拨人的反馈。

第一拨人是大数据方向的同事,他们反馈数据的准确性有时候很难保证,导致在做数据稽核和一些数据统计中,和真实数据的差异较大,这样也会导致一些工作比较被动,业务侧对此的信任度也会大打折扣,而纵观整个数据链路,有些已经可以实现实时流转,却很难直接点出某一处存在明显瓶颈。

而另外一拨人则是做数据统计方向的,他们对于数据有着天然的敏感性,他们对于数据的准确性要求很高。他们反馈数据质量的时机相对要早一些,不过很少反馈数据质量问题,一般就是数据问题需要补录数据,重新跑一些数据任务。

让第一拨人最纠结的是,整个数据流转的团队是同一批人,但是数据质量差别却这么大。

在我的理解中,数据仓库体系应该是大数据体系的一部分,或者说是前哨站,通过和两拨人的沟通,我的小结如下:

1)为什么统计方向的数据仓库体系的数据准确性要高一些,主要原因是它们对于数据质量有一套很清晰的评判标准,并且能够反向推动数据流转体系完善数据质量,比如一张表中的数据有1000万条,需要流转到数仓体系,会有多个维度的校验,比如自增ID,比如ID连续性,数据加载日志,数据预处理日志,数据处理日志,每一步都会详细的记录这些数据处理的进度,对于数据流转体系来说,很可能会有一些数据问题,但是无论是格式还是数据值,如果出现偏差,在统计体系中会更容易识别和分析出来,而这种反向作用力也可以促使流转技术体系不断的迭代升级,一旦出现问题,可以要求重新提供数据,这势必对后端的服务要求也会高一些,即数据处理的幂等性问题。

2)大数据体系的数据质量相对来说难以保障,一方面是因为大数据体系的工作大多数是数据的搬运工,可以从系统,规划等层面提出一些数据标准和规范,但是他们往往不是数据使用方,或者说他们的数据使用方对于数据的准确性没有那么敏感,所以这方面的把控力有限,也很少听到大数据侧会进行数据补录的工作。

3)有很多公司的统计数仓体系和大数据体系是割裂的,导致很多统计侧的数仓体系存储容量大到不需要下沉数据到大数据,而大数据侧会重复处理同一份数据,可能是不同的数据通道。

4)对于数据使用的角色定位不够清晰,比如要求统计体系提供一些数据挖掘,数据趋势的分析等,或者要求大数据提供很精确的数据报表等,除非整个数据链路足够健壮,有弹性,否则这种定位和角色很难让大家都找准自己的位置,相反可能会因为业务而产生为了上某一个技术而硬上的情形。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 杨建荣的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档