结丹篇是《你了解你的数据吗》第四篇,本篇主要聊的内容主要和数据质量监控有关,之前在《数据质量监控》专门分享过相关内容,那篇文章主要从一个宏观的整体来看待质量监控,内容包括架构、设计和实现多个方面,但是对于数据质量监控本身的内容并没有一个比较体系化的梳理,本篇就来做这件事。
我们将要分享的数据质量监控,不是单指数据异常,而是对数据各个角度的描述。
为了后面更好描述我们的想法,这里需要先引入两个概念:
在我们实际的数据质量监控中用到的同比和环比会是这样子的:
在数据质量监控中,我们将要监控的内容分为三个层次:
做一个大致梳理的话会是下面这张图:
数据质量监控的内容当然不会只有这么少,比如说像hdfs、es、mysql这些不同的存储引擎会有不同的特性,特定业务场景也会对数据质量有不同的要求,这些我们都不在做展开,在这里只是做一个抛砖引玉的介绍,期待大家一起来完善。
最后再聊一下为什么在《你了解你的数据吗》系列中混入了数据质量监控的内容。其实笔者理解,所谓数据质量监控,宽泛地讲应该是数据监控,数据监控的目的在于让人或者系统来更好地理解数据和管理数据,我们以这样一种体系化地方式来组织和呈现数据的内容其实是一种知识体系的汇总,其目的都是让人更好地去了解你的数据。