00:00
好了,同学们,那既然我们明白了这个Atlas是干什么的以后呢,我们接下来就来看一下这个Atlas它的一个概述啊,以及这个Atlas到底是一个什么东西啊,首先啊,我们来可以看到啊,这个阿帕奇atla它能够干什么呀?它能够为我们这个组织提供一个开放式的原数据管理和一个治理的功能。那我们可以用这个atla给咱们公司是吧?呃,构建一个数据的资产目录,并且啊,我们能够对这些资产进行一个分类和管理,然而形成咱们的数据字典啊,相信很多小伙伴已经听过这些高大上的名词,比如说数据字典啊,约束据管理啊,还有这个数据治理啊,那我们这个atla就是能够支持咱们做这个工作的。那既然有了这个数据字典,那咱们这个atla就可以给咱们给咱们公司的这么一个数据分析师,或者是数据治理团队提供什么呀,提供围绕这个数据资产是吧,分析咱们这个数据的一个协作功能,哎,那下边啊,我给大家提了个注释,到底什么叫数据字典呢?这个数据字典就可以查询到啊,简单来说啊,当然啊,咱们这个解释稍微片面了一点,那简单给大家介绍一下什么叫公司里边的数据字典。
01:25
如果哎,你们公司的这个收仓项目啊,是拿这个have来做的,那我们以have收仓哎为例给大家介绍一下,那什么叫数据字典呢?就是我在我这个atla里边可以查到我have库的一些解释说明啊,包括我have库里边每一张表的介绍啊,哎,以及我这每张表里边儿的每个字段的这么一个注释啊,说明啊,以及一个用法,哎,包括咱们还可以看到什么呀啊,还可以看到咱们表与表之间的一个血缘依赖,以及啊字段以字段之间的一个血缘依赖。
02:03
这两个东西我们称之为数据字典啊,也就是什么意思啊,哎,大家也都知道,哎,我们这个原数据管理再往后的一个工作叫什么呀,叫这个数据质量监控,或者叫做数据治理。像这两个东西,哎,他们两个是密不可分的,那大家想啊,你只要想对你的原数据哎,做一个管理了是吧,你想对你的数据作为一个质量上面的把关,作为一个质量监控,那我们得知道咱们这个数据是怎么来的,一般公司里边都有。几百张表,那这些表他们之间的一个关系是相当复杂的,如果你作为一个新人刚进公司,你根本就不理解我这表与表之间是什么关系,那你怎么来做这个数据治理呢?因此啊,咱们这个表与表之间的一个血缘依赖图啊,以及咱们这个字段以字段之间的一个血缘依赖图,这个就显得很重要了,那啥,然后我这两张图是根据咱们啊上硅谷的这个数仓项目4.0给大家做了一个这两个图啊,我们可以简单来看一下,首先我们来看一下咱们这个表与表之间的这么一个血缘依赖图。
03:22
大家可以看到,哎,看到什么呀?哎,我这地方我点一个画笔好吧,嗯。我们可以看到啊,咱们最后的这个,就比如说拿了一个什么呀,拿了一个活动规则表,举例子啊,就是这个DM层啊,在我这个地维度梳理层有一个活动规则表,那我这么一张表是吧,如果作为一个新人干机公司,我是不知道你这个表它是从何而来,那如果说诶,你们公司部署了atla这么一个语言数据管理平台,那我这个atla就可以给你展现出你这么一个表,它的一个血缘关系图,哎,我们明显能够看到是吧,我这个activity这么一个活动规则表,活动维度表它是由什么呀,由咱们ods层的活动规则跟咱们ods层的活动信息两张表做转啊,形成的一张宽表。
04:15
那咱们这,呃,Ods层的两张表它又怎么来的呀?哎,它是通过什么呀,它是通过一个建表语句,哎跟什么跟一个漏的这么一个语句啊,数据装载我们加载过来的,甚至你还可以看到你这张表它底层对应的一个什么呀,HDFS的存储路径。那因此啊,这么一个图咱们就能有效的看出来啊,咱们这个活动维度表,它分别是由哪些表,以及我HDF的哪些目录给他组合而来的啊,因此啊,这种图是比较好用的,那你作为一个新人进公司以后,首先第一件事儿啊,你想尽快的快速的了解咱们这个数仓项目的架构,我觉得at会给你提供一个很大的帮助。
05:04
那除了这个表与表之间的血缘依赖之外呢,我们还有我们这个艾LA,它还支持一个字段与字段之间的一个血缘依赖展示。那就比如说哎,咱们以这个支付金额这个字段为例,大家明白是吧,咱们这个ods层啊,包括咱们的DWD层啊,以及咱们这个DWS是吧,还有咱们这个DWT,咱们这些宽表层,以及最后这个ADS,那我都有这么一个这个支付金额,那我这每一层的支付金额,它分别是一个什么关系呢?我最后我最终展示给老板的这个指标里边的这个支付金额,它是怎么计算而来的呢?如果说你想对这个字段做一个数据质量监控,那么你得先明白,你得先清楚。我这个字段是怎么计算而来的,明白了这个字段的来历之后呢,我们才可以对这个字段啊做一个质量的监控,那就比如说我们接下来看atla给咱们形成的这么一张图。
06:09
首先明确的可以看到是吧,咱们这个at。咱们这个payment amount,它分别是先来自什么呀,来自于ods层的,然后呢,通过这个ods层,哎,又来到了DWD层,那么第三个就是DWS了,那最后这一列那肯定是WT,为什么呀?因为只有DWT的这个累积宽表里边,我们才会有这四个累积的,哎,我有这个最近一天的,最近七天的,最近30天的,还有这么一个累积的,哎,那通过这么一个图呢,就比如说是吧,将来你还有一个ADS,那我这个ADS啊,假设啊,我拿的是我DWT的这么一个累积的值啊,就是这个payment啊,Payment amount是吧,假设PA吧这个字段,那如果说你想对这个字段做了一个数据的监控,你你想知道这个字段它算的对不对,准不准确,包括这个准确率有多少,那我们就可以根据这个字段的一个血液依赖图往前追溯这个字段的值。
07:09
啊,看一看我这每每一层是否有这个计算错误,因此啊,咱们这个Atlas还是比较重要的啊,那我们这个at less的一个概述啊,简单就给大家讲到这里啊。
我来说两句