温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
啊,来吧,各位同学,那咱接下来呢,要做的工作就是想办法往这一张表里边装载数据,怎么装载,大家其实现在心里很清楚,就是干啥呀,说白了就是是不是写一个什么语,是谁是谁来的吗?是不是漏的呀,对吧,咱们就漏的一下就完事了,还不到因inter那个时候了啊OK,那玩意虽然漏的很简单,但是我们现在需要考虑一个问题啊,就是我们往这个本里漏的数据,我是只漏的一次就完事了。是不是,是不是只烙它一次就完事了。并不是啊啊,为什么并不是,咱们是需要每天都往里边漏的一次数据的,为什么呢?因为很简单,咱们还是找到HDFS上与之对应的那个路径,对吧?是不是应该是这个路径,前面咱们就提到过,就是这个路径下边我是不是每天这是不是都会新增一个当天的路径了,对吧?那只要这边有数据呢,我是不是就得想办法把它load到我们这张表里对应的分区里,对吧?我是每天是不是都要去给它LOAD1下来对吧?诶,然后漏的时候呢,咱们要注意一下,你必须得把每天的数据跟这个分区是不是得对应上啊,对吧,你得保证是这一天的数据漏到这一天的分区里,这一天的数据是不是漏到这一天的分区里啊对吧,得前后对应,OK,但是其实你可以琢磨琢磨,虽然我每天都要去漏的,但是呢,实际上啊,它这个每天的逻辑是不是都是一样的,对吧,是不都是从一个地方漏到一个地方,它没有其他的这个区别,对吧?诶只不过每天的这个是不是日期是不一样的,对吧?逻辑是一样的,OK,好,那所以说既然逻辑一样,我们这写circle个呢,就不用说把每天都给它写出来了,我们就写一个就完事了,对吧,我们以。
01:29
以一天的数据为例,咱们以哪天为例呢?以2020杠零六杠幺四这一天的数据为例,咱们以它为例啊好,那接下来咱们写一下这个load怎么写,应该是load的date后边呢?是不是加上一个in pass对吧?后边加上谁,是不是就得加上我们HDFS上边这个路径下边14号的数据啊,对吧?你14号是不是就得漏到14号的数据对吧?放在这个位置,然后后边跟上啥,是不是跟上一个into这个table啊对吧?后边再加上谁ODS白C吧,对吧,然后再加谁呢?
02:01
是不是还得指定分区对不对,因为你是分区表必须指定分区啊,所以后边来一个牌里边怎么写呢?DT等于2020杠零六杠幺四,那这样一来的话,那这部分数据是不是就会漏到我们这张表十四二的分距里啊,对吧?然后大家注意啊,这个DT也报错了,这还是gra不支持这个语法,但是三没问题啊,好了,那这个load咱们就算是写完了,但是写完之后各位同学咱们暂时先别执行啊,先别执行啊,什么时候行一会我再说,就是暂时先别执行了,好了,那也是这个漏的语句呢,我们就已经把它给它是不是呃,给他写出来了,对吧,虽然这个语句很简单,但是我们还是那个还是那个问题啊,你得考虑一个什么问题呢?就是这个数据不是只漏的一次就完事儿了,我们是需要每天都去漏的,对吧,但是呢,虽然每天漏的逻辑是一样的,但是他们又不完全相同。对不对,虽然都是漏一下对吧,但是呃,这个又不完全相同,哪不一样呢,每天的这个日期是不是应该是不一样的呀,对吧?OK啊,诶那你说这样一来是不是有点麻烦呢?我总不能说我每天我都去重新的把这个日期改一下,然后呢,再给他漏一下,这个是不是比较麻烦呀,对吧?大家想想你说我怎样去做对不对,我能够重复的去利用这个漏语句,呃,对,你你你总不能是使每次我都手动的改点时间,这个比较麻烦,对吧,怎样能比较方便呢?啊对,咱们可以来一个啥呀,是要脚本对不对,那我可以来个脚本,这个脚本我怎么去做呢?这个脚本其实很简单,它里边的核心逻辑应该就是这样的啊,我应该维护一个日期变量没问题吧?OK,这个日期变量呢,你得保证它的值是什么样的。
03:36
值得是动态的才行,对不对,当那个值应该是怎么样能自动的去计算当天的还是前一天的前一天的,因为李建说咱每天是都拿前一年的数据啊,对吧?诶是这样的,应该每天自动计算前一年的日期,那完了之后呢,我们再把这个日期变量是不是替换到我们这个S当中,对不对,那这样一来,这个脚本是不是每天我们就能够重复的去执行了,就不用再手动去改了,对吧?是这样,所以咱接下来呢,是需要去写一个这样的脚本的,OK,那视频我停一下,咱们看看这个脚本怎么弄,怎么弄啊。
我来说两句