00:00
好了啊,那我们既然是这个原数据的初次导入,我们完事之后呢,那咱们接下来可以试着看一下这些表的血缘关系,好吧,那我们点开这些表之后呢,你发现就比如说我们这个test user是吧,我们可以在这个里边看这个ler,通过ler这么一个,呃,这么一个分类,可以查看这个表的血缘关系,但是你会发现是吧,咱们这个表没有任何的血缘关系,这是为什么呢?第一个因为咱们这个表它的数据是通过那个漏导进来的,再加上咱们又没有跑过这个circle口,所以说这个东西我是拿不到你的血缘关系的,好吧,但是我可以看什么呀?我可以看一下你的关系图啊,包括分类啊,包括你的审计日志啊,还有你的STEM语言数据信息。啊,咱们之前也聊过是吧,咱们的第一张表叫test user user,咱们当初创建这张表的时候,是不是还没有来得及修改这个这个这个原数据的字符集啊,所以说这个地方你看的就是问号,我说过如果这个问题不解决,咱们这个数据字典它使用起来就非常鸡肋,大家能理解吧,你在这看问号我也看不懂啥意思啊,因此咱们后边是不是解决了一下啊,那因此我得看一下我另外一张表,我是不是还有一张表叫test user2啊。
01:08
咱们点开咱们另外一张表叫test u2,然后在test u2里边,你可以看一下这个STEM,你会发现这个时候是吧,咱们这个原数据就能正常显示了,你就比如说是吧,咱们公司假设这个表比较多了,我有几万张表,几千张表,那我想查看我这某个表下边的某个字段,那你就可以在这边搜啊,搜你这个字段,然后呢,你会明显看到这个字段是属于哪一张表,它是什么注释啊,这个东西我们就称之为数据字典,也就是说Atlas给咱们提供一个是吧,管理咱们所有数据的这么一个字典的这么一个功能,它进行一个数据查询,并且还能给你列出来你的每个字段啊,每个表的这么一个血缘关系,那现在有个问题,我们为什么看不到血缘关系啊,因为咱们现在还没有执行这个circle,你不跑这个circle,它是没办法给你生成这个血缘关系的,那我们为了给大家这个显示一下是吧,展示一下咱们这个血缘关系,因此我们需要重新再创建。
02:08
计量表啊,也就也就是什么呀,咱们这个咱们咱们做完这个首初次导入以后,那再往下就是have原数据的增量同步了。那have这个原数据的增量同步就不用你人为干预了,只要你have里边这个原数据发生了变化,就比如说你执行了DDL这么一个语句啊,或者说你执行了DML这么一个语句,那我们这个have户口这么一个这个勾子,程序会把咱们这个语言数据的变动通知at,那atla自然就会,是吧,根据你这个DML获取你这个数据之间的一个血缘关系,那咱们接下来就给大家做一个小案例,咱们给大家演示一下咱们这个血缘关系是怎么样的,就怎么查看咱们这个血缘关系。好吧,就给大家这一块儿做了一个小案例啊,做了个小案例,为什么呀?因为咱们今天这个教程,它并不是基于数仓项目给他讲的,如果咱们这个教程在这一块是吧,是基于那个数仓4.0项目给他讲的,所以我这块我只需要干嘛就可以了,我只需要开启一下那个阿斯卡班,我重新调度一下我我利用阿兹卡班重新调度一下我整个数仓项目的工作流程,让我在每一层窗口重新跑一遍,那我。
03:18
最后是吧,我们这个atla里边就可以查这个循关系了,那现在我们我们没有这个收藏下面的环境,所以说我们只能自己创建两张表,然后呢,咱们写一个小小的circle,然后通过这个circle可以给大家简单查看一下咱们这三张表的这么一个血缘关系,好吧,那我们来看一下我们有哪些表啊,这些表也是从这个收藏项目里边,就咱们简单做的啊,咱们从收藏项目里边截取了一个订单实值表,叫DW do等于份,那这个表它存储的是咱们这个订单的数据。那咱们还有一个什么表啊,还有一个地区维度表。在这个地区维维度表这一块是吧,在这个表里边,它记录了咱们这个疏仓项目里边的所有的省份信息啊,它是它是以省份给给为为这个数据力度来存储的,就是一行数据,就是一个省,那我们要把这两张表串联一下,然后呢,咱们要把咱们这个数据给它导入一下,好吧,那就比如说这个时候是吧,我在我我我起一个我的have客户端,我在我have里边把这些表怎么创建一下啊。
04:19
我们看一下这个atla能否实时的勾取到咱们这个原数据啊,那我就敲一个have进入我们have客户端,然后呢,在DEF的这个库下,我们创建这么两张表。哎,那这个时候是吧,我就粘贴一下这么一个circle,咱们先把这个o in给它创建出来。然后呢,咱们再把这个base purpose,咱们再给它创建出来啊,像这些circle大家简单看一看就得了,那现在我们是不是多了这么两张表啊,这些表,这些语句,这些价表语句是不是就是DDL数据的定义源吧?那我show tables是吧,我们来看一下,这个时候在我have里边就多了两张表,那这个时候你的itla能否实时的获取到这两张表上,那我们点开这个看一下,点开这个数据字典目录,我们点来看一下。
05:09
诶,你会发现,哎,咱们这个have table由刚才的二变成了四,那就说明咱们这个时候已经能够获取到,就是实时的获取到咱们这个have的语言数据的变化了。那现在这两张表有了,那现在我这两张表是不是还没有数据啊,那怎么让咱们这个表有数据啊,哎,在我发给大家这个资料里边,咱们有一个数据的补充,我们来看一下啊,这个是咱们这个atla的资料,在这个资料里边,咱们有一个数据的准备,在这个里边是吧,我就有两个TST,这两个TST一个是对应old infer,一个对应的一个地区表,那咱们只需要把这对应的TST给它上传到我对应have表的这个目录结构下,是不是咱们这个have表就有了,那因此我上传一下好吧啊。点开咱们这个HDFS是吧,在咱们这个warehouse目录底下有一个o in份,那现在这个表是空的,因为因为为什么这是空的呀,因为这个目录底下没有任何数据,那我们现在是吧,简单自己手动补充一下这个数据,因为我们要基于这个表给他写circle查询数据了,你肯定得先保证这个表里边有这个数据才可以,那我们就点这个上传呗,然后选择文件是吧,选择咱们这个order in for。
06:20
咱们给他这个upload上来,只要这个old有了,那咱们接下来还要干嘛呀,还要上传一个这个base pronce是吧,咱们要给它上传点选择文件,咱们把这个base province.testt给它选一下,咱们点打开点upload,那你一旦这两张表你的数据上传了以后,那咱们在have里边应该是能够查到这些表数据了,就比如说我来看一下好吧,Select型from,咱们这个DWD的O的in for or DR的in for,咱们来看一眼,是不是就咱们的这个订单设值表是不是已经有数据了,那咱们看另外一张表,就是那个dim是吧,D层。
07:00
Dim层的base province啊,Pro VC,你看一下这个地区维度表是不是也有数据了,咱们这个地维度表一共有34条数据啊,就是一个省啊,就是咱们这个一行数据是一个省,一行数据是一个省,好吧,就是中国的第一级行政单位啊,省或者是直辖市咱们都算第一级的行政单位,那基于这两个表,咱们要写一个指标,什么指标啊。看好了啊,就是需求指标,咱们要根据这个订单实施表和这个地区维度表,就是老板这个时候让你统一这么一个指标,你给我求出我每个省份的订单次数和这个订单金额。那因此就是在在咱们这个ADS层里边,咱们有一个order by pro,那这个时候我需要什么东西啊,哎,我需要一个统一日期,我需要一个省份ID,省份名称,地区编码,还有这两个国际编码,那最后两个字段,我要一个订单个数,给一个订单金额,那这个三号相信大家应该会写吧,怎么写啊,咱们是不是看好了啊,这个circle我提前给你写出来了,那咱们怎么写这个circle后啊,咱们是利用了这个订单实施表,然后left的桌位上咱们这个地区维度表,然后呢,用咱们这个订单实施表的这么一个省份ID,哎,等于咱们这个地区维度表的这么一个省份ID,让他俩关联起来以后呢,我按照啊,按照什么呀,按照我这个。
08:23
地区维度表的这么一个省份ID,省份名称,还有这么几个国,呃,这个这个地区编码咱们给他分了一个组,那因此这些字段我都可以查查回来了啊,就是我go by后边的字段,我在上边是不是都可以给他查一下是吧?咱们这个这个字段相当于这个组名,那就可以查一下,那这个东西是一个常量值,这个常量值是我写死的,是我2021年8月30号这么一天,咱们做了一个统计是吧,那咱们这样统计好之后呢,那最后两个字段这个抗的星。就是因为咱们这个订单实时表,我这一行数据就是一个订单,那因此咱们这个抗的新就是我这个订单次数,就是我当前这个省份的这么一个订单次数,就截止到8月30号这一天是吧,我这个嗯,我这个这么一个省份的这么一个订单次数,那我这个订单金额呢,你把你这个省份在就是下的所有的订单的金额,你给它加起来,就是我这一个省的订单总金额,所以说这么一个circle号还是比较简单的,那咱们先执行一下这么一个三号,看看他能否是吧,把这个数据给他查出来,在咱们这个have这一块,我就执行一下我这么一个circle,看他能否正确的查询出来咱们这个数据,如果说这个数据能够查出来,那我们就可以把这个数据给它装载到咱们对应的这个ADS层的这个表里边啊。
09:56
我们需要耐心的等待一会儿,因为它底层跑卖Rose,嗯,大家可以可以可以看到啊,咱们八月30 8月30号这一天是吧,它有34条数据我们已经求出来了,或者每一个省份的这个订单个数和这个订单金额,这个数据是能够求出来的,那既然这个数据能够求出来,咱们就要把咱们这个数据给它装载到哪儿啊,就咱们刚才这个circle口上面还要拼上这么一条数据的装载语句是吧,咱们要把咱们这个数据给它装载到咱们这个ADS层的这个表里边儿去,那因此我这个最终的这么一个数据装载。
10:27
那我们想进行数据装载了,是不是得先把这么一个表给它串联出来,咱们先把咱们这个ADS层这张表咱们给它串联出来,然后呢,咱们给他写一个这个数据装载,好吧,这个表只要有了,那咱们就可以做这么一个数据装载了,啊把咱们这个数据装载一下,注意了,咱们现在在这个时候在这边执行circle,那我这个atla那边就能够实时的获取到咱们这个血缘关系。啊,我们我们我们等一下就可以给大家看一下咱们这个atla的血缘关系是如何查看的啊。
11:04
这个MAP6马上跑起来好吧,啊,等他跑完之后呢,咱们先来看一下have这边这个数据是否有了,只要have的数据有了,那咱们这个弦关系应该就就就生成了啊。我们要耐心等待一下啊,因为他要走两个阶段啊,嗯。哎,它这块提示OK了是吧,只要这边OK以后呢,那咱们干嘛呀,咱们要select星from,哎,咱们的那个ADS那个表,也就是咱们这个表是吧?ADS order by province,看一下这个表里边它能否有这么一个数据啊,你会发现在咱们这个表里边确实是有这个34条数据的,那就说明咱们刚才那个circle它执行成功了呀,那你一旦这个circle它执行成功了是吧,那咱们这个时候咱们就可以来到咱们这个atla上面来到打开咱们这个atla要查看这个表了,这个时候你刷新诶,你会发现在咱们这个数据字典目录里边,咱们就又多了这么一个ADS层表。
12:17
那我如果想查看这个表的血缘关系,你怎么看啊,要点开这么一个表,然后呢,点开这个linger在这个里边啊,是什么样啊,首先有一个purpose是一些属性,你想看你可以看一下好吧,它有这个什么自定义的属性,什么label啊,什么business me达这个咱们这个咱们怎么能说在建表的时候都没有设置,所以说S里边是不显示的,那接下来是吧,他会给你写一个注释,这个注解就是咱们这个表的这么一个注注释啊,各各省份订单统计,它属于哪个库呢?是什么时候创建的,都反正都是咱们这个表的这么一个语言数据信息是吧,它属于哪个用户,是哪个用户创建的,哎,然后呢,然后我们点开这个L格,哎,这个时候咱们就能够查看咱们这个表的血缘关系了,只不过哎,咱们给大家举的这个circle它比较简单啊,咱们这个ADS层这个表它是依赖于谁呀?它依赖于咱们DWD层的old,并且还依赖于啊,还依赖于咱们这个dim层的base pro,就是我能够准确的看出出。
13:17
怎么样看出咱们ADS的这么一个需求需求表是吧,它是来源于我们我们我们DW层哪张表,还有这个DMDM层哪张表,像这个图我们就称之为这个表的血缘关系图,那我们除了可以查看这个表的血缘关系图以外,我还可以查看这个字段的血缘关系图,就比如说在咱们这个ADS层这个里边是不是有有一个字段叫payment amount呀,Order about是吧,订单金额。那你说这个订单金额今天这一天算的对不对呢。咱们是不是给大家讲过有一个数据质量监控啊。就比如说是吧,你在这今天这一天,哎,你发现啊,北京这个省,北京这个直辖市是吧,北京这个市它一共呃下单了39万,那我这个,那我这个指标有没有算对啊,我老板怀疑我这个数据的准确性是吧,他怀疑我这个数据的质量,那这个时候我如果想做这个数据质量监控的话,我应该怎么做啊,那你要找到这么一个字段,血缘关系,你看看这个字段它分别来源于哪些字段。
14:26
啊,不行,你就手动给他验算一下也可以,如果说你这个circle比较简单的话,你可以手动的验算一下啊,这个数据量监控它是依赖于咱们这个语言数据管理的,那我怎么查看这个字段血缘关系啊,也是一样的,好吧,打开咱们这个表,它有一个order amount,然后点开这个order,相当于我们已经来到了have的这么一列。然后呢,在这个地方是吧,你能够你能够准确的看到have的这一列的这么一些语言数据信息,然后呢,这一块依旧是有一个linger,有有一个linger,然后点开这个linger血缘关系能够准确的看出什么呀,咱们的这个older amount字段,它来自于咱们的这个final amount,哎,那我这个final amount又是哪个表的呀,你可以点一下这个这个图,它明确的告诉你是吧,咱们这个final amount它属于咱们DWD层的old in。
15:18
这么一个表,那你可以手动的去咱们这个表里边你验算一下好吧,那这个东西啊,这个图就是咱们这个字段的选关系图啊,只不过咱们在这里边是吧,时间有限,咱们也没有基于那个说到项目,咱们只是简单的主举了这么一个小例子,然后通过这个小例子给大家讲解了一下咱们这个atla是如何查看这个血依赖的,那你学会了这个查看这个血缘依赖,那基本上咱们这个itla它的一个功能就给他讲完了,就是itla使用起来比较简单,它无非是吧,就这么几个功能,第一个是点击这个位置查看你当前的数据资产目录,也就是说数据字典是吧,这个东西我称之为数据资产目录,那这几个搜索框我称之为数据字典,那再往下你可以查看这个表的,或者是字段的这么一个血缘关系图啊,通查询这些元数据,那这个就是咱们这个Atlas的这么几大用法,你把这个整明白了,那咱们这个itla的使用。
16:18
基本上就给人家讲完了啊,就是在公司里边,目前也就是用atla来做这么一个工作,好吧啊,希望大家能够明白咱们这个itla它究竟是怎么使用的啊,简简单了解一下就好了啊。
我来说两句