00:00
来,我们大家在用脚本去导这个数据之前呢,需要先检查一下咱这两层的表有没有都建出来啊,我这刚才是在课下的时候呢,我已经建出来了,你就还是用这个受tables命令,用模糊匹配呢,去检测一下就行啊,比如说我先看一下DWT啊走。好,那DWT5张表对吧?没问题,那来再来一个DWS啊,那我们还是给这个走啊,是不是也是有的呀,OK,那十张表都建出来了,我们就可以用脚本呢去导咱们这个数据了啊呃,然后呢,DWS和DWT这两层的表呢,我们有这样一个规律啊,DWS我们是不需要做初始化的,对吧?但是DWT正常来说咱需要干啥呀啊,需要初始化的啊,需要初始化的啊,那但是在现在我们这个,因为咱们这个数仓,我们这个数仓和咱们的业务系统,因为是相对于同步开展,都是第都是第一天的数据嘛,所以说这边咱们就不用做初始化了啊,既然不用做初始化,那我们是不是都是直接就倒就可以了呀,直接倒就可以了啊,那接下来咱们把这俩脚本给它建出来,先找到DWS层的啊,5.4这一节啊,这个脚本咱们给它粘出来。
01:08
呃,脚本呢,大家。其实会写一个就都会写了啊,这个脚本基本上就是大家做的时候就注意考虑两个问题就行了啊,第一个问题就是把你那个circle呢往这个字符串里放的时候,你需要把所有的时间是不是用Dollar to date的替代啊,那再一个呢,所有的表明前边加上库名是不是就主要是注意这两点呀,然后剩下的就交给have杠一去执行就行了啊,主要是这样的两点啊来,我把这个。弄一下。大家稍等一下啊。哎,我这个连的又慢了啊。来,那现在呢,我们进到这个并目录。啊,那起个名字啊,咱们名字叫啥啊,叫做DWD吧,应该是啊,然后to DW s,点这个SH啊,那其实到这儿之后呢,大家也发现了,我们是不是就不再区分什么日志和业务数据了呀,因为他们是不是都混在一块了呀,对不对?那咱们一次性把俩脚本都建出来吧,那下一个呢,我们就叫d ws to d wt啊,然后点SH,好,那现在我们继续往下走,呃,找到DWT这个脚本啊,那这个脚本呢,也是一样的啊,就把所有的circle放到咱们的这个哎,S串当中,呃,时间替换了表明前面加上库明,那也就OK了啊。
02:32
CRZ。来把这个拿回来啊,然后我们shift z,然后加执行权限,那咱们一下有俩有俩脚本对吧,咱们直接这么加吧。用这个模糊匹配加吧,啊,那咱们就星点SH得了啊走好,那俩脚本是不是咱们都加上了呀?啊OK,那完事之后呢,我们可以去执行这俩脚本了,然后大家现在要注意啊,这俩脚本咱们执行有没有前后的依赖关系。有吧,因为我们是不是往DWT层导数据的时候,它需要查DWS层的数据啊,对不对,所以说你必须得先导到DWS,再导到DWT啊,你看其实现在我们就能够体体会到这样的一个痛点啊,就是你去提交咱们这个任务的时候,你得先,比如说在这儿呢,先把这个任务啊,咱们得传个日期啊,2020,它是不用区分什么首次和末和后续,每天重复啊,所以说只传一个日期就行了啊,2020杠零六杠,哎幺四啊来那执行执行,OK,那现在我们其实就能体会到一个咱们提交任务的时候的一个痛点,你你是不是这个任务提交了之后,你必须在那等着他,等他完成之后才能提交咱们下一个吧。
03:40
对不对啊,而且咱们这儿还是这个教学环境,我们数据量很少啊,一会儿就能跑完,假如说咱们在生产环境这一个脚本,我可能需要跑的时间一个小时,对不对,那你是不是就在这等一个小时啊,那这个肯定是不现实的,那所以说那那种是不是咱们那种工作流程调度框架,就是阿兹卡班或者是乌ZZ那个东西是不是显得就很重要了呀,对不对,它是能够自动帮我们依次提交每个任务的啊,你只要告诉他谁依赖于谁啊,那到时候呢,它就会帮你自动的依次去提交,它会监控这个任务,第一个完成自动提交,第二个就不用我们人为的去守着了啊。
04:16
嗯。那咱们这没办法,因为我们现在是开发阶段嘛,只能等着啊,只能等着。嗯。再稍微等会儿吧,已经很快了。好,那马上完成啊,马上完成。嗯。这应该是最后一个了啊。哎,还不是啊。这个完了之后呢,我们把下一个也提交了,那下一个下一个应该是DWS到DWT是吧?啊来那同样呢,我们也是只需要传一个时间就行,哎2020杠零六杠幺四,然后呢,走啊等这个执行完之后呢,我们相当于就哎完成了我们这个两层的这个数据的,诶装载了,那这时候DWS已经结束了,对吧?我们可以去检查一下DWS层的这个数据,那随便随便找一个啊,比如说我们看一个DWS层的什么activity in。
05:24
啊对,Count,哎,一共俩活动啊,俩活动,然后边呢,有我们这个曝光的次数,这个是不是来自咱们日志表啊,这是下单的次数啊,这个呃,下单的金额呃,然后支付次数,支付金额哎等等等,哎是这样的啊,然后你像其他的,比如说再随便找一个dws user action de count啊,那是用用户ID,什么login count card count order count等等,后边没有就是零呗,对不对,那下边呢,会有一些其他的,你看这个是我。诶,可能过去一个咱们这个下单的比例整的比较小,可能是啊,那这个用这个人他是不是下单了呀,对不对,那下单之后这里边存的是什么,是不是他今天所购买的,诶所有的SKU的各种信息啊,对吧,是这样的啊,那这就是咱们这个最终的结果啊,就这个样子啊行,那DWT呢,咱们就不等着它了啊应该诶已经完事了,完事之后呢,咱们去看一眼吧,简单查看一下啊,随便看一个,比如说看一个dwt area topic啊,这应该是咱们那个地区的宽表吧,那这里边一共30几条,一共34条数据,咱们34个省份嘛,然后边呢,就有诶各种各样的这个统计值啊,各种各样统计值,然后将来呢,我们这个整个出仓开发完之后,我们会啊,做一个这个报表嘛,报表咱们到时候会做一个咱们国家地图啊,然后呢,用一个地图的形式去展示一下咱们每个省份的各种信息,各种信息,比如说展示一下我们不同省份的啊什么呀,比如说不同省份的这个活跃的这个次数啊,或者说这个订单的次数,你。
06:53
是不是就可以利用咱们这张表当中的数据去做呀,是这样的啊,那到时候怎么展示,我们后续再说啊,行,那两层的数据呢,我们应该是没有问题了啊好,那我把视频录一下。
我来说两句