00:00
呃,那做一个测试这个地方呢,我们要去关联SKU这张表对吧?所以呢,呃,我们要做测试的时候呢,必须得保证咱们SKU,起码你这一次测试,你得保证SKU这张表里边得有数据对吧?得有数据好,那我们呢,先要做为表的初始化了。对吧,现在呢,我们非X里边连这张表都没有,是不是那不行啊,所以呢,我们先干什么事呢?启动大的FS.fsh啊,把这个提起来,然后接下来呢,我们双管齐下啊,这边呢,同时二手准备,那边呢还得初始化,对吧?那现在呢,我们这张表里边只有这些东西,那不行啊。对吧,那肯定不行,那怎么办呢?把这个你给我删掉。你给我删掉啊就行了,对吧,这个就没有了,没有之后呢,右键运行搜文件啊,在哪呢?来点开啊。
01:00
注意看这里面呢。有一个资料在咱们这个笔记里边,资料资料有一个叫table process初始位置终于用到它了,以前呢,是我们自己写的,对吧,我们做测试啊来运行。开始好关闭,然后呢刷新,刷新好以后,这里边呢有我们的表,哎,我们把要的为表呢都给大家准备好了,你不用一个一个的手敲了,对吧,之前呢,我们是为了做测试,都是带大家手敲的,一点一点加的,对吧,但是最后你就不用了啊,大家来看我们关联的这个微表,表明叫DMSQ没有问题,然后具体的来看一下里面字段。PD。开这个三的ID。还有一个t m mid对吧,诶这个字段呢,也都有没有问题啊好,那等会儿呢,我们去造这个数据,那先呢,把我们要的东西开一下ZK。Start。好,呃,麦克。
02:02
启动对吧?嗯,然后接下来呢,诶哦,卡夫卡没齐啊啊麦克等会还还会挂掉,那没关系,我们起下卡夫卡啊。诶,他们也挂掉啊,没有没有新数据啊,没有新数据他不会去连这个卡夫卡也就不会挂掉了啊啊。嗯,那都是起的,那我安全起见啊,我还是把这个,因为我不知道他会不会连超时等会会挂掉啊,我先把这个干掉,干掉呢,我重新启动一下啊,我重新启动一下,因为我刚才在卡夫卡没起的时候,我起了这个麦克L,而麦cel它依赖于这个卡夫卡,它会将数据写到卡夫卡,对吧,防止出问题呢,我还是把麦L后驱。开一下啊,后面开一下好啊开。那我们这个同学就开了,而且安全模式呢,我相信他应该已经退出了,因为都这么久了。安全模式已退出启动。
03:10
好呢,我们要等到他把这个初始化做完,对吧,16010啊。现在呢,还没有出稿完成的,你看这个还没有表明呢,还有reading的名字对吧,刷新诶现在变成表明了啊,有的东西还没上线呢,看见没有的表还没有双线啊好,那在刷新这会应该差不多了,那我们进到这个菲ho尼X塔C到这个。Phoenix啊,到这个Phoenix对吧,好,那B叫so.py。好呢,咱们也要开一下啊。还留一个窗口用来开Mo数据啊,得最后造数据呢,咱们也要开。因为你要防伪表对吧,你肯定要用到这个啊,那b red serve点杠对吧,然后呢,B。
04:03
RA client。杠H好102,然后呢,杠杠六啊呃,加上这个参数有什么好处呢?假如说你有中文,这个里边呢,能显示中文,如果你不加他,你中文呢就是。二进制啊,就是应该16进制显示的啊啊拼一下嗯,没有问题啊,可以先查一下。没有数据,因为都已经过期了,咱们昨天都没上课对吧,所以都过期了,咱们之前有一条数据,那24小时早就过期了,对吧?好那么这个东西呢,我们感叹号。Table,然后呢,Drop。Table,哎,我们把这个已有的表啊,我给大家删一下,因为等会儿呢,我们也重新创建,这里边有一些脏数据,对吧,我们不要。啊,等会呢,反正我们会重新创建啊,诶这个我们不应该删多了,然后呢,这个二开了个二对吧。还有一个trademark。
05:03
三张表对吧,我们给它处理一下感叹号table。好,这个就没有了,咱们班的这个表就没有了,对吧,没有问题啊,好,那还有一个准备工作得做一下,呃,等会儿呢,我们见表是会去见,没有问题啊,还有什么事呢?我们现在在这个SKU PU trademark,像这些表里边都已经有数据了。对吧,那当然了,我把这个干掉。这是张数语属于啊,我们就不要这个,然后一里边我记得也有吧,哎,一里边没写是二呢。二也没写是吗?啊,没写没写就行啊,嗯,三呢,我就要检查一下。啊三也没有那行吧,那咱们之前用的就是这个啊,SKU有没有啊,SKU有的是吧。SK为本加数据啊,好像也没加啊,35条那没加啊,行,那我们要恢复到原始,我就把这几条脏数据呢给它干掉了,我们自己做测试添加的对吧?好,那关键问题在于我们要用的这些维表啊,你看啊这些个东西。
06:05
这是历史数据啊。对吧,我现在要做实时,你呢用数据去导,用那个dmo导导呢,只能导最新的历史数据,怎么办呢。我们。Maxwell是不是有一个?的功能。初始化功能对不对。对吧,我们现在呢,就要用初始化功能呢,将这个历史数据导过来,那我们就跟。大家在离线数仓当中写的那个。到这个事实表那个脚本一样,对吧,我们也有一个脚本,那这个脚本在哪呢?在这个位置啊。其实在很早,但是呢,我当时没有让大家去导这个数据。好,没有大让大家导这个数据啊,在呃,我记得应该在。这个位置吧。诶,不在这儿,不在这儿的话,应该就在上面啊,或者在我们采集模块啊,我们看一下。
07:04
数据仓库构建,嗯,模拟数据准备啊,应该在这儿,应该在这儿。这边呢,要写了一个什么呢,这个哎,就是它啊这个东西为表。对吧,啊在这儿啊在这儿。尾表,然后呢,这有一个脚本在这个位置模拟数据准备这啊,咱们写成一个所有导入维表的一个脚本,看见没。对吧,叫or哎,参数呢,选择二所有的啊,最后呢,去。执行就好了啊,执行就好了,注意啊,在这个6.2节,6.2节模拟数据准备这儿呢,给大家放了一个脚本,当时呢,我们没有用对吧?啊,那么我这边呢就有啊,本身就有了,你在这儿。CD到闭目录啊呃,L,我呢叫这个名字叫DM my to,卡夫卡的一个。点SSH对吧,然后呢,我们要写的内容啊,我们要参数呢,呃,我们看一下这里边呢,其实就一个一。
08:01
到了一道了,一呢,我们写谁呢?写这个所有二就行了。啊,写这个二,我们把这个所有数据导入。OK了,这是我们的一个准备工作,那接下来呢,我们先把不管怎么说,先把维表数据导入了啊,先把维表数据导入,那维表数据呢,在哪呢?在这个DM这啊然后呢。把它打开。这是我们之前写这个维表数据的,对吧,把它打开。好,那我们的表呢就可以。去被创建对吧,哎,那等这个表创建完,因为我们现在表就可不是那么一两条了,对吧?好,那接下来呢,我们先到菲尼克斯看这个表感叹号。Table,诶,那你看116表都有了,对吧,这是我们所有的维表啊,那接下来呢,我要把数据导入现在呢这张表里边。
09:03
现在这张这些个表里边呢,肯定都是空的,没有数据对吧,随便挑啊,天那我们挑我们要的SK。没有。对吧,呃,PU空的啊,那么就看两个就行了吧,大家知道我们刚建的表嘛,没有人往里写对吧,你包括这边都没有打印出来,那接下来怎么办呢?来到这边我们执行这个脚本。九点。哎。点个好走。好,开始初始化了对吧?啊,你看这边已经开始写数据了,对吧,先是这个activity SKU啊这个呃,参与了,哎开为一二对吧二,哎开为三,看见没。啊三呢,数据量会大一些啊。Province。慢哎卡对吧,这是这个啊,当然我们等着等这个走完啊,咱们先你要,因为接下来我们要测试关联维表能不能成功,那首先你得保证你的Phoenix维表里边有数据才可以,你的没有数据你怎么可能关联成功呢。
10:13
对不对,好,那到这边为止不走了,那应该结束了啊,这边看诶已经脚本执行完了,对吧,这完之后呢,我们得确认一下这个数据有没有丢啊,怎么做呢,我们一张一张表来看。Base trademark多少条数据11条对吧?好,Base trademark11条啊,我们就先把我们要的这个表的数据啊给查一下啊,那select count我也不对这个数据,我只对数据量对吧?From。这个库点叫base trade mark,这张表11条数据没毛病对吧?好,那继续我们再来SKU35吧,我记得对吧,来看skuo在这35条数据啊,共35条对吧,没丢好。
11:00
那SPU。PO12条。SPU看一下SPU啊,这trademark就不要了,对吧?啊s puu在这啊,然后我们再打开SPUSPU12条没毛病对吧?好,那接下来呢,CATEGORY123这几条数据看对不对啊CATEGORY1。17条,他这个17条对吧,共17条没有毛病啊二。二呢,113条,看这个二一百一十三条没有没有问题吧,注意看啊这对吧,它这个三,它这个三呢,注意它是两页,第一页1000条分页了,第二页99条,所以它是1099条对吧,好那三。1099条没毛病吧,一条都没丢啊好,那接下来未来呢,我们还要这个。还要关联这个,你看下面一个需求。往下翻对吧,十点十这个需求啊,关联省份我们一并看了啊,省份base province这张表,哎,那这张表里边34个。
12:07
啊,我们用了34个,好,那这边呢,我们来。Base province。省份,诶,那我们呢,只给了34个这个维度,对吧,那34条是不是也就没有丢啊。对吧,也就没有丢,你一定要确认一下这个事儿啊,你别到时候测试的时候,你本身非那都没有表完事,你测你告诉我诶,呃,问我这边为什么这个维表没关联上。那你非这个词都没表你能关联上,那不那不有有问题吗?对吧,能关联上不出问题了吗?是不是对吧,关联不上那才是对的啊好那把这那做测试呢,为了看它有没有关联上,那这样咱们这是关联后打印嘛,对吧,在关联之前咱们也做一个打印对吧?啊也关联之前呢,这个流叫这个啊。Print。
13:00
啊,在关联前呢,咱们也做一个这个打印,诶这是关联前的数据,我们做一个对比,主要看呢,这三个字段有没有补充上对吧,主要看他们三啊好,那他呢,我们这里想一下他的数据来源,这个all detail。啊,All detail,那也就是说咱们要开这个DWD的detail。就是它对吧,这个也得开啊,不要漏了他得开对吧,先把它打开,然后再开这个DWS你的数据里得有啊,对吧。好,那我们。House。少一个东西啊,我我一启动发现他直接就结束了,你看直接就结束了,对吧,就反应过来了啊,这个最后这个呢没写啊。
14:07
要不然不可能,他起码得报个错再挂掉对吧,直接就挂掉了,那说明嗯,就没写启动啊,把它提起来。好,这边是这些数据,然后呢。那都开了,开了之后呢,我们就可以去造数据了,对吧,这边啊那维表那我们已经走了,不用管了啊OD Mo到这个。DB。Log对吧,好,那诶不是logb了,叫。哎,Dblo,对的,Dblo这怎么晕乎乎的呢,对吧,Dblo dblo,我看log以为日了啊,行为了,好,那DB Java。上下Mo对吧,走你诶,那我们开始造数据啊。
15:06
好,那这边呢已经有了,然后我们来看这边啊,首先这没有打印,然后我们看这。诶。我是漏了什么数据流吗?嗯,他没有数据出来啊。Maxwell。呃,造数据通过maxcel传到这个卡夫卡,卡夫卡呢是ods啊,这个奥D调对少了一个东西,预处理预处理啊。预处理这个没开,那肯定不行,对吧,我们把这个预处理打开,对预处理的啊这个。少了一个对吧,好,他打开。
16:01
好,那接下来呢,我们重新去造这个数据啊。走,你。啊,这已经有了,我们其实可以不用重新造了,因为我们消费者组没改,消费者组没改对吧?啊,所以呢,他就有数据了,重新造一下也行吧,啊无所谓啊,那首先呢,我们看上面这个里边呢,是没有关联的,对吧?啊,因为关联的咱们加了VSKU啊来注意看啊,咱们两个打印一个呢,加了VSKU一个没有对吧,这个呢,里边你看啊,它的CATEGORY1ID啊,不是一啊,应该看33ID是nu。对吧,Puid为now。嗯,Trademark ID在哪?哎,Trademark ID在这为呢,对吧,都没呢啊,这里边都为呢,那我们往下找找谁呢?找这个with SKU for啊with SKU的数据对吧?这里边主要看trademark ID,诶关联上了,看见没三啊然后呢。SPD有了对吧?呃,开三的ID,诶不是闹了,我们要的是不是这个效果啊对吧?这就说明都关联上了,且我们看有没有丢数据,很简单,来啊,这是原始数据吧,CTRLCCTRLF,总共呢,585条,好,那么接下来我往下翻。
17:18
刚才我们看到了原始数据就关联前585条,对吧,我们看关联后有没有少啊。往那一放,585条,一条不少是吧,那你看到这一步咱们的问题就。没有问题了,对吧,咱们那个代码就没有问题,测试没有问题OK吗?啊,咱们要到这一步。好。也没有丢对吧,数据也没有丢啊,因为这585条是咱们两次造的数据两次啊。好,那这个就搞定了,咱们呢就搞定了啊。
我来说两句