温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
那接下来我们就是到第二章啊,就是数据质量管理的实操啊,在本章呢,我们会从零到一去实现一个数据质量管理的功能啊好,我们先看一下需求分析啊,那我们这个数仓项目呢,主要监控以下指标啊,来看一下。啊,那这里边呢,分别是O层的数据量啊,里边包括每日环比查和每同比查啊,这个每日环比和同比指的具体是什么呢。我给大家解释一下啊,每日环比呢,指的是把每天的数据量和他前一天的数据量进行比较啊,然后呢,去观察这个数据的增长情况,每周同比呢,是指将每天的数据量啊和上周同一天进行比较,那具体来说呢,就是比如啊,将本周一的数据量与上周一的数据量进行比较啊,本周二的数据量与上周二的数据量进行比较,OK,那这就是OS层数据量的检测指标,然后是BIM维度层的检测指标啊,那维度层呢,主要检测主键的空值和重复值。
01:03
那同样DWD层也就是明细数据层,它检测的主要指标也是主的空值和重复值,由于每一层当中每张表的检测指标都是相同的啊,检测规则呢也是相同的啊,所以在这儿呢,我们每层只挑选一张表作为实例啊来我们先看ods层,Ods层选一那订单总额的阈值检查啊好,那再往下看,下面呢是DWD层啊,DWD层我们选用的是DWD啊,那主要的监测指标呢,包括主键的空值检查和重复值检查。啊,那再往下呢,是DM层啊,DM我们选用的是am user这张表啊,那它的检测项呢,也是的空值检查和重复值检查啊,然后我们再往后看啊,后边呢,是每一个指标的阈值啊,这里边包括一个下限,还有一个上限啊,如果我们检测指标的结果超出了这个阈值啊,OK,那就会触发后续相应的告警通知。
02:12
好,那这些呢,就是数据质量管理模块所有的监测指标,好,那接下来我们再来看一下数据质量管理这个模块的子模块啊来往下呃,这有一个PPT,我们一起来看一下啊来点开整个数据质量管理模块呢,一共分为以下几个子模块啊,那分别是检测模块啊,然后呢是告警模块啊,可视化模块以及调度模块,那接下来我给大家说明一下每个模块的功能啊来先看第一个检测模块啊,那这个模块呢,它的主要作用就是检测我们数据仓库当中特定的几个数据质量指标,比如我们刚刚提到的唯一性检测啊,完整性检测以及准确性检测等等等等,那这个模呢,会将检测结果写入到MYL数据库当中啊OK,那后边的告警模块呢,会读取检测结果啊,如果有异常数据呢,就会进行告警通知。
03:07
啊,然后可视化模块呢,它也会读取检测结果啊,并且对检测结果呢,进行一个可视化的展示啊,那调度模块的作用是什么呢?啊,调度模块的作用就是调度整个检测流程啊,这个调度模块呢,我们主要使用的工具呢,就是阿兹卡班,好,那这就是数据质量管理所有的功能模块啊。
我来说两句