00:00
OK,那接下来呢,我们给大家说一下ods层的业务数据啊,咱们怎么去处理啊呃,Ods层的业务数据呢,我们一共倒过来了20多张表,对不对,一共20多张啊,那所以说我们去建表的时候呢,咱们就得建多少张啊ods。是不是就得建20多张,因为这个是不是完全得看你那个scoop导到HD上的这个文件有多少对吧?啊,文件有多少,那我就建多少个表,哎,表示20多张表啊,然后表当中字段怎么决定呢?怎么决定是不是就以咱们那个导过来的字段为准呀,你导过来什么字段我就建什么样的表,表当中就有什么样的字段,就是这样的啊,咱们这个就不再呃一个一个去说了啊,我们就举一个例子就行啊,咱们举一个例子,以Z为例呢,比如说随便挑一个啊,咱们这找到,比如说找到这个SQ引号商品表啊商品表,那咱们就以它为例了啊,以它为例了,我们把这个建模语句呢,给它粘出来看一眼啊,CTRLC。嗯,放到这里吧,随便挑一个就行啊啊,这是它的这个减法语句啊,那这个键面语句呢,首先我们看它的表明啊,表面叫ods SKU引O是不是加一个前缀,再加上它在MYS当中的表明啊啊就组成它这个ods的表名了啊然后下边往下看,那咱们这个表呢,也是一个外部表,刚才那个o s log也是外部表,刚才没跟大家说啊,你会发现我们书仓里边这个表呢,都是外部表啊,都是外部表ex extern啊,这个目的就是防止咱们这个误删嘛,啊这个大家应该都知道,这个不再多说了啊,然后往下看看它的这个,呃,下边这个字段一会儿再看吧字段,呃,因为跟咱们买思库当是一致的,对吧,这个就不再多说了啊,咱们看下边啊,看分区啊,仍然是按照日期分区,一天一个分区啊,然后下边呢,诶注意看。
01:47
他这咱这是不是写了一个分隔符啊,我给log咱没写它这咱们写了啊,为什么这要写。啊,为什么呀,因为咱们这个买so的数据啊,导过来之后啊,它是不是就是以固定的分割符分割的呀,对不对,那咱们建表之后,那个文件漏的进来,咱是不是得能够正确的识别才可以,所以说你这个分隔符是必须得跟你那个文件的分隔符一致才行,要不然就识别错误了,对不对,那咱们要知道我们那个文件的分割符是什么呀。
02:20
诶,为什么咱们这是写杠T,咱们是在哪儿指定的那个表的那个文件的分割符是在哪指定的。啊,文件的风格分,呃,从那看是不是应该也是杠T啊对吧,那个是什么时候指定的呀。是不是咱们使用scoop往上传的时候指定的呀,对不对,咱们看一下啊,找到库那个脚本啊,VMCD到这个并目录啊vm school脚本买circle to hfs打开,打开之后呢,我们随便啊NJJ啊随便找一张表。哎,不用随便找,咱们找哪得找这个date对吧?得找它,因为是不是他们都调用的这个函数,那这个函数当中我们有一个这样的参数,需要一个fields termin by啊对吧?所以说我买搜当中的每张表导到HS之后呢,那个文件的分隔符都是杠T啊,那都是杠T,那所以说OD层的业务表,咱们的分隔符必须指明杠T,要不然的话不能正确识别啊,这是得注意的一个点啊行,那下边呢,同样也是也它是不是也是拉文件呀,那所以咱这里也是store as加上input和auto就行了啊,那最终呢,给它指向一个这个location啊就完事了啊,这就是咱们ods层的这个业务数据表啊,建建这个建表语句,然后这个字段呢,我们就完全跟谁保持一致就行了啊,是不是完全跟咱们S库脚本当中,你导过来的那个字段保持一就行了呀,比如说我这呢,搜一下s ku ino,那这边我导过来的这些字段啊,Idspu press SKU name等等等等,你就跟它一致就行了,一模一样。
03:53
啊,照着它建就行。啊,这个就是咱们OS的前面语句。然后ods层呢,这个因为这个表太多了啊,呃,咱们而且跟那个业务数据当中一模一样,所以这个呢,我们就不再一个一个说了啊,咱们统一的把这20多张表呢,一次性的给它建出来,呃,一次性的建的话呢,咱们需要去给它处理一下啊,我先把这个所有界面语句先粘出来啊。
04:16
往下拉一下。咱这个偷懒啊,一次性把它都建出来啊,来放在这啊,CTRLC,当然这个不能直接拿过来,直接拿过来之后是不是咱们这里边有这个标题,还有这个什么have这个东西啊,那会报错,那所以咱们先把那个东西先处理一下啊,这个咱们统一的处理啊,CTRLV诶我放在这完之后,咱怎么处理呢?我就CTRLF啊,我发现这个标题是不是都是三点多呀,那我就搜3.3啊呢,我就翻到先把这个标题找到,然后我推到最开始加两横线两页在搜当中,是不是就是注释的意思啊,然后呢,我到它的下一行啊,然后呢,再刚刚诶把这个have杠一,把这个have也给它注掉,那剩下的是不是就只剩下咱们那个键面语句了呀,对不对,那ctrl a ctrl c粘出来,粘出来之后呢,放到咱们这里边来啊,Ctrl a喂啊,那从这到上边呢,咱们一次性的全部执行,那这20多张表呢,咱们就见完了啊。
05:09
来,因为这个没有什么逻辑啊,所以咱们就不再一点点说了啊来到哪,然后看是不是到到这个位置是吧?啊来那咱们直行。啊,等他执行完就行了啊,然后这个20多张表当中呢,呃,绝大多数都是相同的,然后有两张表是特殊表,谁是特殊表来着,哎,地区和省份表,他俩你说特殊在这,在这个鉴表语句上,你说他俩特殊在什么地方啊。对,不用分区啊,不用分区,因为它只有一份嘛,对吧,你看它就是没有分区别的,其实都是一样的啊,其实还有一点啊,还有一点其实大家想一想啊,咱们这个呃,地区表啊,其实说实话啊,地区表其实根本就没必要压缩。啊,以及咱们那个呃省份表,其实咱们往上传的时候是不是也没必要压缩呀,对不对啊,因为什么,因为数据量是不是太小了呀啊对吧,所以说你这个压不压缩其实无所谓啊,但是这个咱们因为本身倒过来的时候就已经压缩了,所以咱们就还按照这个统一的这个呃方式去处理一下就行了啊,能够解析这个压缩文件就可以了啊,不用分区,这一点是它的这个特殊地方啊,记住就行了。
我来说两句