00:00
哎,这样呢就OK了,你看启动完之后呢,就是这样的一个页面,这种页面跟谁哪一个这个组件类似啊,是不是跟你们学的那个阿兹卡班是非常像啊,非常非常像哈,那这块呢,直接哎,默认的这个用户名和密码呢,是俄的密,密码也是俄的密哈,那这块呢,用户名密码是可以修改的,你要想修改这个用户名密码,你需要在哪修改呢?这块啊,这个2.5.2这块是可以修改用户名和密码的,跟你们那个修改阿斯卡班那个方式呢类似啊,非常的类似,我这里面给大家一个案例啊,但是我们这里面目前测试阶段没有必要去修改它,对吧?嗯,行,那回来之后我们来看格德密密码也是格德密哈。这样呢,就来到了这个对应的这个页面,然后呢,在里面设取,你看它支持的这个SAS源有什么,这个fcon是吧啊con,然后还有HP啊h base的这个S源也支持,还有HDS呢啊HDY路径还还还可以呢啊还有呢就是have啊,我们关心的have,那还有呢,这里面有列啊,还有这个列的什么链接,那我这里可以选择,还有HDBDB的话就是对应的这个呃,数据库啊,数据库集成过来哈啊搜索。
01:13
那你这一搜索啊,目前这里面什么也没有啊,你说海哥这不对啊,这啥也没有啊,没有是对的,你需要干什么呢?还需要再干一步。在这个启动完之后啊,这里面还需要将have原数据叫导入到Atlas,你必须得导一次之后,它才会产生后续的一个连接,你不导一次的话,那不行,他不知道你要用哪一个held啊,那这里面呢,就是that at下面有一个b in part have sh。这样呢,就是负责导员数据哈。嗯,还是当前这个目录下。哎,这目录下,然后呢导还有原数据执行这个导啊,有的时候这个同学如果你前面没有配置好的话,At purpose没配置好,那这块就不会导入成功,你一定要认真检查,只要没你导错就是没成功,基本上90%以上都是因为你前面的一些马虎啊,配置像我刚才的多加一个等号啊啊,或者哪一块这个粘贴的时候没粘对啊啊的原因导致的哈,所以说这块要细心。
02:21
来看一下,看一下我们能不能成功啊。没成功就去检查前面的配置啊,别嫌烦。那这里面呢,还是需要你输入用户名密码,那仍然是的密,密码的密,好它开始执行。导的过程。那这块就靠你的电脑实力了哈。不是所有人都能导成功。开始干活。嗯,看着不错啊,有戏啊,应该问题不大。
03:07
你那破电脑。好,去吧。对,有可能啊,有这跑七八行那算好的啊,小张浩,你不要跑七八行,能跑出来那算好的啊,有的同学是跑七八行没跑出来。这就有点尴尬了。你看我电脑现在在嗡嗡响啊,嗡嗡响。这个呢,还不是到了这个最大的压力,嗯。等我们后面跑阿斯卡完任务的时候,你会发现我这电脑那那真的是嗯,康康的响。行啊,这个非常有戏啊,非常有戏,有希望。哎呀。完蛋了,失败了,我去。这叫尴尬呀,来瞅瞅吧。
04:03
ATLAS54 please check for error during。完了,内存溢出了,你看到吗?看到了吗?Out of OM,哎呀呀呀呀,Unable to create,这不会吧,这么惨,我的电脑都溢出了。这有点尴尬呀。好尴尬呀,我看看多大呀。怎么就溢出了呢?对呀,我这16G内存啊,我我这这不应该呀,我再来一次啊,再来一次,对,我是16加44啊,我平时跑还能还行呢,再来一次。哎呀,这个今天这个人品有点有点差呀,嗯。再来一下,应该不会啊,应该开直播,对,有可能开直播他占用了一部分资源。
05:02
昨天是没开直播。完了又开始又开始想了哈,今天人品确实有点差。哎,我最近没干什么坏事啊,都是干的好事啊。哎呀。能听到这个电脑声音嗡嗡转。诶,成功了吧,你看我就说嘛,看到了成功了吧,哎,终于成功了哈,所以说我还是可以的,来再来看一下,刷新一下啊,刷新一下这个页面,刷新之后你看这里面就有了这个相应的gmail这个对应的组件了吧,啊一个数据库来看一下啊。
06:01
如果你导入成功就有了,然后你点开,点开之后这里面会描述的这个这个数据库它的一些信息,比如说存在哪了,这个数据库它的名称叫什么,用户是谁啊,用户的类型是什么,然后再往后看,它给是这是个标签啊,这个不用看audio,这也不用看,这个是记录了这个数据库的相关操作,什么时候创建的,什么时候修改的啊等等一系列事情啊,当然这个我们看的少,就看这个,我们关心的是这里面有哪些表啊,有哪些表,你看这里面ADS上一堆表。DWD表,嗯,后面你还可以有哈,往后挪。你看DW dods啊,再往后挪啊,再往后挪。哎,这里面还有啊,还有很多信息啊,很多信息,所以说这里面啊特别特别多,那我们关心哪一个呢?我们关心啊,未来关心的是这个ODI上有一张表。叫。呃,ADS有一个user topic,咱们之前波波老师带大家跑的一个其中一个指标不就是user topic嘛,对吧,我们一会儿呢也跑这个指标,所以说看一下看一下这里面这是这张表,这张表呢,你看哪一个呢?这也是他的描述信息啊,我们只看这个link。
07:17
哎,这个呢,就是它的原数据信息。有同学这海哥你你别瞎扯了,哪有元素信息啊,有啊怎么说有呢,你看这个呢,是这个数据表存在了什么位置,叫be house怎么基本网目录像,然后呢,创建的是一张外部表。然后表名字就说这个依赖关系在哪呢?因为你没有向这张表里面导入任何数据。就说这里有数据啊,有数据它是创建我们刚这个执行这个把have里的数据直接导过来的。你直接倒过来的,他可不知道我跟谁有依赖关系。对不对,他根本就不知道跟谁有一定关系,只有你在从DWS或者DWT往这里面导入这个过程。
08:01
才能够产生依赖关系,记住哈,这个依赖关系是它只要往里面动态的导,才会有静态进来的数据,它不会有。那大家考考大家,那如果让你现在去做这个原数据管理。就是说我现在让你去实现这个对应这个功能,表与表之间的依赖和字段与字段之间的依赖,你怎么做呢?或者说你去怎么分去写这个代码呢。哎,怎么写?其实啊,它是这样的哈,这样的一个流程。事了。啊,White riright table,然后table呢,下一个表目标表。像这里面插入数据对吧,有part的话就是P啊,这个part分析我就先不写了啊,然后呢,Select。原表。
09:04
一般情况下,我们执行的这个脚本都是这样的一个关系,那其实呢,这里面它就能够产生依赖关系,就是靠着解析对应的蛇口。啊解,市面上目前有这么几种方式啊,一种方式呢是用atla这种框架去实现,那如果不用at的话,你需要用的是一个解析。这个SQ的一个价包,比如说解析SQ的价包。只要有这个解析加包就可以了,从这个解析里面,你怎么去解析,你看这是目标表,这是原始表,那未来形成的这个一代关系就是原始表。然后对应的目标表就是这样一个关系,比如说他就知道啊,我去从这个from里面去找这里的表,肯定未来未来作为血缘依赖的输入,那么这块插入in射的OI的插入,它会作为未来的一个输出。
10:02
就是这样。啊就是这样,那好,那下面呢,那这个是表与表之间的一个依赖,那如果想做字段与字段之间的依赖呢,比如说这里面提供ID。哎,提供这个内容对吧,那这个呢,是查询完之后,向这个目标列表里面去插入。那好,那这不就作为目这个原始表的输入吗?那这张表里的字段其实你是能查出来的,那你只要一解析这个circle口,你就能找到对应的依赖关系,对吧?哎,那这个是目标表的ID。这是原始表。啊,其实这两种方式啊,咱们之前老学员无论是用atla还是说自己去手动解析这个东西都是能实现的,你们只需要把这个依赖关系解出来之后,后续由谁来,由谁来做呢?由前端工程师。
11:02
前端负责可视化。就完了,哎,有人帮你们去可视化,你只需要把这种依赖关系搞定,那其实最准确的就是解析,那解析Q怎么解,就是查呀,查你这个表名后面它是谁,那这目标表,那查这个from后面谁from的就是原始表,它的依赖关系就直接产生了,好,那现在呢,你看那你这块光往这一放,数据已经默认就有了,那它就不会有依赖关系,只有一个创建表的一个语句。哎,只有它,那你想啊,你看点开。点开之后,这里面有你创建表的一个具体的看。建表语句都在这呢,放着啊,只是这个啊,能不能拉一下啊,拉不动啊。拉不动啊拉不动,那这里面有对应的信息啊,建表语句相应的一个操作好关掉,那当然这个也能看对吧,你看这里面GID呃,然后用户名X啊对应的信息。
12:02
这个呢,也可以看存储位置,具体存储在warhouse gmail ADS ad u topic啊这个目录下,然后下面呢,这是什么啊,对应的名称啊,OK。那这个呢,是嗯,表与表之间的一个依赖关系,那再往后往后走,这是他给的这两个不用怎么看啊,看这个。看这张表里面有对应的字段对吧?这里面有对应的字段,那对应的字段的话,我可以点开字段,字段里面仍然是对应的这个这个结构包括属性描述,这还有一个linger,这个ler呢,就是属于这种血缘依赖关系,那刚开始它是没有任何血缘依赖关系的,No Ling data方。啊,你需要执行对应的任务之后才会去产生啊,才会产生,那产生的话,现在呢,我们把这个嗯,阿卡班启动起来哈,用阿兹卡班执行任务,让它产生相应的依赖关系o BT model。嗯,阿兹卡班,请一下阿兹卡班。
13:04
阿兹卡班启动命令找一下。这儿。呃,先启动,这个是先启动。嗯。来到这里面执行启动。启动完它之后呢,我们再来启动一下这个server。OK行,那现在呢,这个阿兹卡班我们启动完了,启动完之后呢,我们来查看一下对应的这个阿兹卡班。
14:01
1028443。打开。看一下这个页面哈。那这个页面呢,还是仍然输入用户名,输入对应的密码,密码呢,我这里应该是我的密码登一下,哎,这样呢,就已经登录上来了,登录上来之后呢,我们来创建一个呃,Project,那这个project就是你们之前波波老师给你们跑的一个全流程。啊,陈正成在这呢,啊,这里面你看一下,就是你们上课用的这些所有的脚本啊,你们就跑你们自己的就行了啊跑一下啊,那我们把它跑起来啊,你们这个时间比较长,嗯,跑的时间至少得有一个,我得跑一个小时吧,嗯。P topic。然后创建。创建之后呢,上传对应的这个任务上传。
15:02
DW看一下哎,DW打开,打开之后上传。哎,这样的一个依赖关系,然后查看一下执行流程对吧?啊,我们也是把那个事件那个先给它干掉哈,因为要跑事件的话,这个时间就太长了啊,太长了,那这个任务呢,已经准备好了,那现在呢,我们要生成对应的数据哈,先准备好对应的数据,那怎么准备好对应的数据呢。我看一下啊,这群啊,还这个102。这里面查看一下。嗯,在这个date gmail log这里面都是3月10号和3月11号的啊,我不在生成这个数据了,我生成什么哪天呢。再克隆一个。呃,Date今天的日期呢,是3月30号,那我就生成一下3月30号的数据哈。CD,那就是Java。
16:00
杠架杠架的话用这个user action啊增成三月,哎呀不行,我得先把通道打通。先把这一个通道打通啊,现在我们是把这个卡布卡打通了,对吧,卡布卡启动了,前面还有一个弗鲁姆,后面还有一个弗鲁姆,呃,这个弗二弗一这两个要启动一下哈,还得再启动我的天呐。看看这个电脑能不能扛住啊,得起来啊,要不然你生成的数据都过不来呀。再来个F2的。啊对,那个那个也得改一下,确实得改一下啊,现在呢,整个通道打通了,我先启动一下用户行为的,嗯,杠架action。看一下啊,这里面应该是1000条。
17:11
行启动成功之后啊,你要去这个路径上去查一下有没有对应数据啊。看哎,这里面就有了3月30号的一个数据了,对吧,哎,3月30号数据,那这呢就可以了哈,这个可以了,之后我们再来哈。然后呢,我们来修改一下业务数据啊,业务数据这里面默认的是3月16号。改成3月30号进的应该是三层。好,3月30号呢,仍然执行下架班,Java杠架好执行。那这个期间呢,我们可以观察一下这个这里面有没有啊对应的数据连接。
18:02
看看有没有3月30号的数据,把这个用户行为的数据和业务的数据呢,我们提前准备好。呃,来到这个gmail里面。这打开一个order吧。打开,打开之后看有没有3月30号的。嗯,二月对3月30号有没有,目前没有是吧,还有一个有一个3月30号的应该是有。对吧,这是有3月30号的,那就说明已经导入过来对应的数据了啊,3月30号OK 3月30号也是用户行为和业务的数据呢,我们全部准备完毕。准备完毕之后,下面要到了这个激动人心的时刻了啊。哎,来到这来到这之后呢,要准备执行对应的这个任务,那执行这个任务的话。哎呀啊,为什么看不到那屏幕。嗯,添加参数添加DT,我这里变成2020杠零三杠,今天是30号对吧?啊3月30号,然后执行。
19:13
这些。那现在呢,他就开始正常的去跑这个任务,呃,大概跑的时间呢,是一个小时,然后如果顺利的话,顺利的话是一个小时能跑完,如果期间发生了OM,那就不一定了,那现在呢,这个就正常他在跑,跑的话,我现在给大家传一下这个你们需要的这个价包好吧,啊需要加包。
我来说两句