00:00
好,各位同学,那刚才呢,我们经过了这个十几分钟啊,那这个Atlas呢,终于启动成功了啊,首次启动确实时间是比较长的啊,然后这儿呢,需要给大家再提醒一下啊呃,这条日志。这条日志其实早就打印出来了,说什么这个已经启动成功了,对吧,但是他启动成功啊,我们这个就是他这打印这条日志呢,并不意味着我们这个外部应用启动起来了啊,就是说它这条日志打印出来之后,你仍然需要继续等待啊,等待差不多十几分钟的时间,那这个页面呢,才能够访问,那咱们这个访问的地址是谁啊,来看一下地址是不是刚才说了是这个嗨度10221000啊对吧?啊,那现在我们已经这个启动起来了,我们就可以去登录,然后去使用这个来LA,那我们登录的时候呢,是不是需要一个账号,一个密码统一都是D面啊,那现在我们登录一下ad啊in,然后admin,好,那现在我们点击。好,那现在我们就已经登录到了这个itla的工作界面了啊,其实这个整个的工作界面就是一个什么界面,其实就是一个搜索界面,对不对,那家可以看一下啊,此时我们搜索的时候呢,可以去做呃,不同类型的搜索,我们可以干啥?在这儿是不是有一个搜索方,这其实是一个啥呀,全文检索对不对?那除此之外呢,我们还有什么搜索啊,在这儿呢,我们可以按照不同的哎,比如说type是不是按照不同的类型搜索,那还可以按照啥呀?Class classification什么意思分类对不对,是不是可以按照不同的分类进行搜索啊,对不对啊,那这里边我们都有哪些类型呢?你可以点开,点开之后你看有什么类型。
01:28
是不是有什么scoop的process scoop进程,还有STEM的一些这个类型,STEM当然咱没学过,不用管,咱们往下看有没有跟have相关的,我们找have so,你看是不是有have的列,Have的什么列的line是什么意思,这是不是就那个血缘lie不是血缘的意思啊,对吧?玩下边这是啥?是不是have DB对不对,Have DB的DDL啊,那再往下走,还有啥什么的处理过程啊等等,Have的table等等,这是不是都是have的数据类,这个数据类型啊,对吧?那你可以根据类型去做相应的检索,那比如说我现在呢,诶搜一个have列,呃,完了之后呢,这咱们什么都不写,我写一个search。
02:06
有东西吗?是不是啥都没有对不对,为啥为啥什么都没有了呢?这是咋回事?这咋回事,其实很简单啊,我们现在呢,是不是只是完成了一个什么操作。只是完成了一个LA的一个,呃安装,然后启动对不对,那要注意一下,我们当初确实刚才确实在那个哪儿,在have里边我们装了一个勾子程序对不对,但是那个勾子程序它的作用是什么?那个hope作用是什么?是不是只有当我们have当中的原数据发生变化之后,才会将变动的信息发送到我们的这边这个sla当中啊,对吧?但是我们现在从安装完slas启动之后,Have的原数据变了吗?是不是没变,所以他会过来吗?不会啊,那所以说我们需要做一个什么操作呀?跟咱们那个数仓同步数据是一样的,是一个道理,我们数仓在第一天的时候需要干啥。是不是做一个全量的导入对不对,初始化导入对吧?那后续每天呢,是不是在导这个每天的变化数据啊,对吧?诶其实跟它是一样的道理,那所以说我们在使用atla的时候呢,也是一样的,咱们往下导啊,那我们在这呢,需要做一个I have原数据的初次导入,那怎么初次导入很简单,艾LA给我们提供了一个have原数据导入的脚本,直接执行这个脚本就能够完成have原数据的初次全量导入,好,那现在呢,我们去做一下这个导入的工作啊来,那这个脚本在哪呢?啊,在Atlas这个根目录下面的HB里边有一个import have.sh脚本,那现在呢,我们直接执行就行,在那呢用绝对路径就可以啊好,那现在我们执行来回车。
03:35
好,那现在呢,他就开始去准备同步这个have当中的原数据信息了,那现在他输需然我们说一个什么,是不是说一个username对吧?谁username at last,那我们是不是就输in就行,对不对,那下边是不是还得让输一个密码啊对吧,这个也输谁就行了,Ad main就行了啊那现在呢,他就开始准备去这个同步了啊好,那我们这时候呢,需要稍微的等一会儿啊,已经开始同步了,咱们稍微等会儿。需要一点时间啊。
04:04
嗯,那我们把这个视频呢,先暂停一下吧,同步完之后我们再恢复啊。啊,那我们等待的这个几分钟啊,那现在呢,出现了这样的一条日志,说have datated successfully,那就说明我们have当中的数据信息现在是不是已经全量的同步到了我们的sla当中啊,对吧?那同步进来之后呢,其实我们是不是就应该能够从这个界面上搜索到我们想要的havell的原数据信息来,对吧?比如在这儿呢,我们换一个类型啊,比如说我们搜索一个have当中的一个,比如说DBSODBDB,比方之后咱们不写其他内容,我们直接search,诶大家注意观察,此处是不是就多了两个呀,对吧?一个是J帽库,一个是李方图,那当然了,我还可以搜索其他类型,对吧?比如说搜索haveve的这个tale,搜索haveve table来往下走,那之点击search。好,大家注意观察,那现在have当中的这个表是不是就全部都展现出来了,没错吧,哎,就是这样的啊,那原始信息就摆在这了,摆了之后,比如说我们随便看一张表,咱们就看它,比如说点一下,嗯,那点完之后呢,这里边会有这张表的很多的这个信息啊,比如说举个例子啊,首先第一个这是啥,是不是练啊,对吧?啊,这个应该能看懂对不对,那这个呢,是他的这个,呃,Common当然是这张表的common文的啊呃,这张表的话们目前还是论码的状态,为啥呀?
05:19
因为其实当时我在讲出仓的时候,给大家讲过那个have当中注释乱码的问题,对不对,但其实当时我们只改了谁了,只改了那个列的注释的这个编码了,对不对?表的注释我们实际上没有去改编码,因为他在不同的表不同的字段,对吧?啊,其实当时只改了一个,所以说这个呃,表的注释呢,仍然是乱码的啊OK,但是其实列的注释现在应该是正常的了啊,咱们一会儿再看啊啊,那里边呢,会有什么cur time啊,就是什么时候创建的对不对啊,那默似访问时间是什么啊,然后属于哪个库等等等等,是不是会有这么多的信息啊,呃,在在这呢,我们就不再一个看了啊,那重点我们现在往后看,看一个什么,看一个LA来,是不是有咱们那个非常重要的一个功能叫做血缘管理啊,对吧,那我们点一下。
06:02
点那点完之后大家看一下啊,这里面有没有这个血缘关系图,有但是很简单对不对,这个图呢,我们看一下它是不是对的啊,看这个图能不能看懂。大家稍微注意一下啊,就是像这种啊,这个蓝色的这种六边形啊,这个带个小表格的指的就是啥,是不是就是表对不对,那这有个小项,这就是啥,就是HDS一个路径啊对不对,像中间这种绿色的,反正中间有一个小齿轮的,这都是啥呀?这都是一个操作,一个处理过程啊,是这样的啊,OK啊,大家看一下这个能不能看懂,这个处理过程实际上是啥呀。你可以点一下,点一下之后你就能看到这是啥,是不是就是create turn table等等等等这啥呀,是不是建表语句啊,对不对,是不是就我们创建表的一个操作对不对,创建表的这个操作将谁跟谁关联起来了,是不是将HD的一个路径和我们这张表关联起来了,为啥?因为表是不是得位一个路径啊,对吧,这其实就咱们那个location能理解吧,啊是这样的啊OK,诶那当然这个血缘依赖是不是太简单了,我们ADS层的表,咱们里边的数据的血缘依赖它体现出来了吗?
07:06
没有体现,那为什么现在没有体现出来数据的全原依赖关系呢?这是为啥呀?啊,那这个呢,咱们得看这个I的原理是什么,来往下看啊,那我们看文档啊,那刚才呢,我们把这个数据导进来,然后查看,呃,这个原数据,我们是不是已经拿到了原数据啊,对吧?拿到说但是我们去查看这个轩认依赖的时候呢,发现没有轩依赖,为什么没有呢?来看一下原因呢,是由于这样的啊,是由于at lights,它是根据have所执行的circle语句去获取表与表之间,以及字段与字段之间的依赖关系呢,也就是你是不是必须得执行一条搜索语句啊对吧?什么样的搜索L语句呢?我们来看一下,例如我们执行一个in inside into table a后边接一个select from table b的语句,你执行一个这样的语句,那你说这是不是就能够表明table a和table b是有这个数据的血缘依赖关系的?
08:00
应该能看能看出来吧,咱们是不是就是从这张表里读顺,读完之后把它写到了A表里边啊,对不对,所以说是不是A和B它之间就有一个血缘依赖关系啊,是这样的,也就是我们必须得执行这样的语句,那Atlas才能拿到这个数据的血缘依赖关系啊,那由于我们此时呢,并没有执行任何的circle装载语句,所以说是不是还不能出现咱们想要的这个数据的确实依赖关系啊,对不对,那怎样才能看到呢?啊,我是不是得跑一遍全流程再乘乙对不对啊,OK啊,那一会儿咱们再去跑全流程,一会儿再去跑全流程啊,OK,那接下来往下走啊,我们看这个3.2啊,3.2,那3.2这一节呢,讲的是什么?讲的是这个have的原数据的增量同步啊,这个增量同步具体讲的是啥?大家能看一下啊。Have原数据的增量同步呢,是无需人为干预的,只需要做什么操作,只需要我们have当中的原数据发生变化,那什么时候会发生变化呀?其实就是我们执行DDL语句的时候,就比如说建个表,改个表或删个表等等,是不是都会变化,对吧?只要变化,那have hook是不是就是我们在have当中配置那个勾的程序啊,对吧?就会将语言数据的变动通知到atla当中啊,那当然了,除了呃去他会去监控这个DDL语句,它还根据什么呀?它还会根据DML语句获取数据之间的血缘依赖关系,DM语就是啥?是不是就是比如说我们查找数据或者是插入据这种这种语句啊,对吧?哎,根据它去获取依赖关系啊,那所以说我们要想去获取依赖关系,那咱们是不是就得去执行这样的DML语句才可以啊,对不对啊,那所以说我们为了看到这个血染依赖的效果,那接下来呢,我们需要做一个什么操作呀。
09:37
全流程调度啊OK,那咱们接下来呢,就去做一下这个全流程调度啊,我把视频先停一下,咱们下一节再做这个全流程调度啊。
我来说两句