00:00
好,接下来呢,我们来看一下这个Atlas啊,具体为何是吧?啊,首先第一章是Atlas的一个入门。那艾莱入门主要介绍了一下艾特LA,它能解决什么问题啊之后呢,1.2呢,是这个艾特莱的一个架构原理,那这张图当中呢,是从它的官网截下来的。我们会介绍里面有哪些件,再后下来第二,第二呢,主要是责一个安装,那你看啊S安装,嗯,其实就是各大组件,什么JDK主keep卡卡。Solar have。啊,就一堆的一个安装哈,呃,再加上你之前数仓的一些组件,咱们至少应该有十五六个框架吧,啊同时的一个配合使用,这里面其实涉及到大量的一个兼容性,呃,就在最近这两天,我其实还在调,咱们之前这个have用的是1.2.1。可以非常顺利的使用这个sla,但是呢,嗯,咱们最近不升级嘛啊升级把这个have变成这个2.3.6之后,其实引发了一系列的问题啊,一系列问题,嗯,导致呢,这个前期的时候啊,遇到了很多坑啊,直接起不来呀啊原数据没有啊啊等等哈,嗯,但是现在呢,已经都把它解决掉了哈,后面给大家说一下啊会遇到哪些坑。
01:25
之后呢,后面是at集成各大组件集成集成集成卡啊,具体的一个配置之后呢,是基启动啊,然后将中的数据导入到Atlas,因为它就是负责原数据管理的嘛,管原数据的,那管谁的原数据呢?我们这里主要管的是have的原数据。再之后第三章,第三章这一块是具体的,哎,它怎么样的去产生相应的血缘依赖关系啊,它对我们这个项目呢,有什么作用啊,是在这块去讲解的哈,呃,之后呢,第四章这块呢,是编译源码atla这个呢,你光光从官官网上下载下来的时候,它也是只给你的源码,不是加包,需要你进行一个编译啊,那还好,这块呢,我们已经编译好了啊,编译好了行,那这是整个课程当中我们的一些内容啊,其实你只需要记住什么呢?中间这块具体的安装配置,以及第三章的一个简单使用。
02:22
就完了啊,用起来还是非常简单的哈,那首先从入门这块开始看。首先概述,呃,概述呢,这句话呢,是从官网摘下来的原话哈,原话一点没变,比较晦涩难懂,看你能不能听懂啊,叫Atlas为组织提供开放式原数据管理和治理功能。它是数据治理其中的一个功能模块哈,用于构建其数据资产目录。对这些资产进行分类和管理定位数据分析师和数据自理团队提供围绕这些数据资产协作的功能。
03:00
哎,这个说的这个非常官方啊,呃,我相信能听懂的同学呢,应该不多,那我直接呢给大家翻译一下,就说这个艾莱到底解决什么事好直奔主题。呃,咱们之前分析指标的时候,应该分析过一个GMV。对吧,按整体的一个销售额,当然了,你们跑那个全流程任务的时候,跑的是应该是一个user topic啊,相当于是用户主题里面的指标。对吧,啊用户主题指标,那他们之间跑完任务之后,有一个任务挂了。你的老大呢?让你分析它的影响,你说哪些任务需要重跑?或者说我这里的数据哪来的,我需要往上追溯啊,怎么一个追溯。那首先它需要做到表与表之间的一个血缘依赖关系啊,放大一下。这东西干嘛用的?不知道大家能不能看清啊,这块有一个ADS g MV someday,其实就是每天的GMV的一个总和。
04:04
这一张图。那这是GV的总和,那如果GV总和算错了。那我知道那谁能影响他,就说你这个数据哪来的。哎,数据往上找,你看这块儿有一个dws action,相当于是DWS用户行为宽表。啊,用行宽表,那再往上,那应用行为宽表哪来的?哎,我们这里面的是这个dwd order in for dwd comment in for,相当于一个订单,一个评论,还有一个支付啊这张表关系啊,跟你们新版的这个书上呢,有略微的一个差别哈,啊,我没来得及这个截图啊,其实一样道理的。啊,一样道理哈,就是你ADS层的数据来源于DWS或者DWP的哪一张宽表,那DWS又来源于DD的哪些表,那再往上推。再往上推呢,是订单表支付表支付表。
05:00
你说它会形成一张网状的图。能够向上进行一个追溯。这个呢,目前呢,这张图上表示的是表与表之间的追溯,你说这张表挂掉我需要重考它,它挂掉我需要重考这三张表,你说这个好low啊,这有啥用啊,这我都知道这张,这张表挂之后,我是知道前面有三张表的。对吧,那现在是因为我们数据量比较小,或者表的业务呢也比较少,那如果你去一家公司,它是有3000张表组成。啊,比如说你去这个啊,Boss直聘啊,或者去这个二手车。他们内部一去来一入职,3000张表摆在你的面前,说你跑任务,然后其中一个任务挂了,其中一个任务挂了,让你说,你说你要重跑,你去跑吧。你连你要从3000张表找出你要跑的,那就是大海捞针啊,所以说这样呢,这个分析起来啊,就非常麻烦,那往往呢,就需要这么一个啊,数据管理,我们去快速定位,我需要重跑哪些表啊,也就说它的故障范围会影响到哪些。
06:10
就这么一个作用啊,其实用处啊,还行吧,啊只能说还行,如果说业务复杂的时候,那这个有用,如果说业务非常简单,你就一共就呃30个指标,或者五六十个指标啊,你自己用用人眼去对也能对出来哈,行,这是表与表之间的一个依赖,那光达到这种级别啊,企业是不太满意的,你还需要字段与字段之别的一个依赖。比如说看下面这个。还是这个依赖图,这呢是g MV count,相当于是GMV这张表当中的其中一个。指标。啊,就那么一个字段,那么如果说这一个字段说计算的不准,他跟以前有偏差,而且偏差很大,他怀疑你这个数据算错了。那这个时候怎么办呢?还是你要分析是前面的表当中的哪一个字段影响了这个值,那往上推吧,哎,往上推是这个u action的order count这个字段,那再往上推是DWD这个order in for这张表其中的一个字段,哎,那再往上。
07:21
最终找到的是ods info。啊,你是原始数据在这呢,然后一层到这儿到这儿,哎,具体某一个字段会影响后面的一个什么程度。那我只针对这一个字段进行一个处理,那就OK了啊,其实就起到了一个啊故障定位,包括这个故障之后影响的一个范围。这么一个作用啊,行,那我们现在就知道了啊,他就解决这么一个事儿,他只能看啊,他只能看啊比较弱,呃,如果是你买那个阿里云的,嗯,阿里云。阿里云里面有这个任务调度框架,它不光能够看出来这些相应的依赖,他还能干什么呢?你任务一挂了哈,直接在这里面一点击冲跑。
08:03
直接可以重跑。直接运行,那只不过呢,这个是收费的哈,要花钱嘛,花钱这个功能就会强大一些,行,这个是呃艾一个简单介绍啊。
我来说两句