温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,各位同学,那现在我们开始学习数仓项目的数据质量管理模块啊,那什么叫做数据质量管理呢?来我们先看一下它的定义啊,那数据质量管理呢,是指对数据从计划、获取、存储、共享、维护、应用、消亡啊,那这一整个的生命周期的每个阶段里边可能会引发的各类数据质量问题啊,进行识别、度量、监控、预警等一系列的管理活动。啊,并且呢,通过改善和提高组织的管理水平,使得数据质量获得进一步的提高,那这个说的通俗一点呢,实际上就是数据从它产生到最终消亡啊,在这个过程当中可能会出现一系列的数据质量问题啊,比如说这个数据的空值啊,比如说诶超过极限范围,再比如说呢,诶重复的数据啊等等等等,那数据质量管理要做的工作呢,实际上就是对这些问题呢,进行实时的监控啊,然后呢,进行及时的识别啊,并进行告警。
01:06
啊,那我们呢,再根据告警信息去改善数据质量啊,这其实就是数据质量管理要做的具体工作啊,OK,那数据质量管理呢,它是一个循环的管理过程啊,它的终极目标是通过可靠的数据提升数据在使用过程当中的价值啊,并最终呢,为企业赢得经济效益。OK,那这就是数据质量管理的一个定义,数据质量管理的最终目标呢,是改善啊,那所有的改善都是建立在评价的基础之上的啊,那所以说我们接下来看一下数据质量的评价指标啊,来往下看啊。那数据质量的评价标准呢?一般情况下有以下五类,那分别是唯一性、完整性、精确性、合法性和时效性。啊,那接下来呢,我逐个给大家解释一下啊,先看第一个唯一性啊,那唯一性呢,主要指的就是主见的唯一性。
02:00
啊,那与之对应的监控项呢,就是字段唯一性的检查啊,那我们在实施数据质量管理的这个工作的过程当中呢,需要对每张表的主键呢进行唯一性检查,下一个呢是完整性啊,这个完整性呢,主要包括记录的完整性和字段值的完整性。啊,那我们与之对应的检查呢,就包括了字段枚举值检查啊,字段记录式检查以及字段的空值检查啊,OK,那再下一个呢,是精确性啊,那这个精确性呢,就包括数据从生成到在整个链路流转过程当中的准确性,那与之对应的监控项呢,主要包括波动阈值的检查啊好,那下一个是合法性啊,这个合法性呢,主要包括的就是格式类型以及阈值的合法性啊。那与之对应的监控项呢,主要包括比如说字段日期格式的检查啊,那字段长度的检查啊,以及字段阈值的检查。
03:00
那最后一个呢,是时效性啊,这个相对来说比较简单啊,其实指的就是数据处理的时效性啊,那再具体一点呢,诶,其实主要就是批处理啊,那与之对应的监控项呢,哎,主要就是批处理它是否能够按时完成,OK,那这就是数据质量管理的评价体系,那数据质量管理要做的工作呢,就是对这些指标进行监测啊,然后呢,识别问题啊,进而呢,去改善这个问题。好,那这就是数据质量管理的一个概述啊。
我来说两句