关于数据质量的思考

jeanron100

发布于 2020-09-10 14:58:45

5210

发布于 2020-09-10 14:58:45

最近和几个同事聊了下关于数据的一些问题，有一个问题引起了我的好奇。那就是数仓体系和大数据体系的数据质量差异。

因为各种原因，一份数据可能会被多处消费使用，有的用作精确数据可视化，比如报表，对账单等，实时性要求不是很高，一般是T+1的模式，有的用作趋势分析，或者潜在问题分析，对于数据集的时间周期要求较高，有些需要在海量数据中挖掘更多的数据价值，让单一的数据通过连接产生更多维度的意义，总体来说，大家对数据质量的需要不尽相同，有些人主要关注数据的准确性和一致性，有些人则关注数据的实时性和相关性，因此，只要数据能满足使用目的，就可以说数据质量符合要求。

来说说困扰我的数据质量疑问，来自于两拨人的反馈。

第一拨人是大数据方向的同事，他们反馈数据的准确性有时候很难保证，导致在做数据稽核和一些数据统计中，和真实数据的差异较大，这样也会导致一些工作比较被动，业务侧对此的信任度也会大打折扣，而纵观整个数据链路，有些已经可以实现实时流转，却很难直接点出某一处存在明显瓶颈。

而另外一拨人则是做数据统计方向的，他们对于数据有着天然的敏感性，他们对于数据的准确性要求很高。他们反馈数据质量的时机相对要早一些，不过很少反馈数据质量问题，一般就是数据问题需要补录数据，重新跑一些数据任务。

让第一拨人最纠结的是，整个数据流转的团队是同一批人，但是数据质量差别却这么大。

在我的理解中，数据仓库体系应该是大数据体系的一部分，或者说是前哨站，通过和两拨人的沟通，我的小结如下：

1）为什么统计方向的数据仓库体系的数据准确性要高一些，主要原因是它们对于数据质量有一套很清晰的评判标准，并且能够反向推动数据流转体系完善数据质量，比如一张表中的数据有1000万条，需要流转到数仓体系，会有多个维度的校验，比如自增ID,比如ID连续性,数据加载日志，数据预处理日志，数据处理日志，每一步都会详细的记录这些数据处理的进度，对于数据流转体系来说，很可能会有一些数据问题，但是无论是格式还是数据值，如果出现偏差，在统计体系中会更容易识别和分析出来，而这种反向作用力也可以促使流转技术体系不断的迭代升级，一旦出现问题，可以要求重新提供数据，这势必对后端的服务要求也会高一些，即数据处理的幂等性问题。

2）大数据体系的数据质量相对来说难以保障，一方面是因为大数据体系的工作大多数是数据的搬运工，可以从系统，规划等层面提出一些数据标准和规范，但是他们往往不是数据使用方，或者说他们的数据使用方对于数据的准确性没有那么敏感，所以这方面的把控力有限，也很少听到大数据侧会进行数据补录的工作。

3）有很多公司的统计数仓体系和大数据体系是割裂的，导致很多统计侧的数仓体系存储容量大到不需要下沉数据到大数据，而大数据侧会重复处理同一份数据，可能是不同的数据通道。

4）对于数据使用的角色定位不够清晰，比如要求统计体系提供一些数据挖掘，数据趋势的分析等，或者要求大数据提供很精确的数据报表等，除非整个数据链路足够健壮，有弹性，否则这种定位和角色很难让大家都找准自己的位置，相反可能会因为业务而产生为了上某一个技术而硬上的情形。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-09-08，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据