00:00
来,咱们把这个拿下来,CTRLC,把这本语句放到我们的笔记当中,CTRLV,来来看一下这个表里的字段啊,咱们看它怎么来的啊,这个表的字段呢,其实呃,来源非常明显明确啊,我把它定一下吧,定了之后,诶把这个我复制这吧,来CTRL。CF3给我定过来,定过来之后咱们对照这个日志去看一下啊,刚才说这个是不是来自于启动日志,来自于启动日志,那咱们就把这个启动日志呢打开。来咱们看一下啊,你看这个字段能不能看明白啊,这几个字段到这个位置。都来自于哪,都来自于公共字段啊,只不过这边是简称,咱们这儿到表里边是不是改成全程了呀,啊,是一样的东西啊,那这几个字段呢,从这到这儿。嗯,那都来自于四袋塔啊,那TS呢,就是这个TS。能看懂吧,啊就是这么去解析的啊呃,完了之后呢,这张表还有什么样的特点,我们去看一下,呃,首先这张表呢,它也是一个,呃,这个分区表啊,也是分区表啊,按天分区啊,然后再往上看一下表明啊DWD,然后呢,Start log啊标识是DWD层的,然后呢是启动的日志啊,然后往下看啊,看它的数据结构啊,或者数据的格式,你看这是什么格式了。
01:21
是不是应该是start as per,然后呢?啊,这个table properties后边来了一个pu.compion等于拉泽罗,哎,这边咱们换成什么格式了呀,是不是换成了列式存储PAR瑞是不是列式存储啊,加拉泽罗压缩的这个格式啊,然后大家要注意了啊,我们整个数据仓库的主体啊,主体是不是就这三层,DWDWT和DWS这三层对吧?那这三层呢,全部都是统一的数据结构,数据格式啊,都是帕qui列存储加拉多压缩啊这个大家先明确啊,后边我们这三层每一张表都是这样的结构啊,都是这样的日志结构格式,我就不再一个一个强调了,这个大家注意一下就行了啊,那边说一下啊,为什么咱们在哎数仓里边咱们要进行列式存储呢?
02:16
为什么要列存储啊?啊,因为大家都知道啊,在咱们数仓当中,我们后续要做的分析都是什么分析啊,都是一些聚合分析对不对,那更具体一点的都是一些分组聚合啊,主要就是一些分组聚合啊,那你分组聚合的话,那你去从咱们这个表当中查数据的时候,你需要把所有数据全查出来吗?所有字段都需要吗?不需要,一般是不是就是只对某几个字段进行分组,对某个字段进行聚合呀,那所以说你需要的只是某几个字段。啊,那既然是只需要某几个字段,那你对对数据进行劣势存储,那是不是方便我去查询一下,这个效率是比较高的,所以咱劣势存储是很有必要的啊好,那在这儿呢,咱们采用帕亏的加拉泽罗,然后呢,在这儿呢,还需要给大家强调一下啊,这块大家又看到拉泽罗了,对不对,那一般情况大家看到拉罗就得显,首先得反映到什么问题啊,啊就是索引的问题对不对,然后给大家明确一下啊,在这张表当中,咱们需要进行啊,见索引嘛。
03:16
需要给他建索引吗?这是不需要的,为什么不需要啊,只有什么样的表咱们才需要建索引,只有你这张表,它的这个数据的格式啊,是纯拉泽罗文件。啊,就是只有拉泽罗压瑟,就是对文本文件进行了一个拉压缩,这样的文件我们才需要进行这个索引的建立。啊,那对于这张表,那它是纯拉罗吗?不是,它是什么结构,它是帕结构啊,它是帕qui啊part qui啊,然后这个拉索罗指的是什么,是不是帕quid当中,我因为我是列是存储的嘛,对不对,对每个列进行压缩,就是它内部进行压缩的一个格式,对吧?那所以说从本质上来讲,咱们这个文件还是什么格式的呀。
04:02
是拉斯罗格式吗?不是,是什么格式啊,是帕亏的格式,而帕帕亏的格式它支持不支持切片呢?他自己修知识对不对,所以说你还需要给他建什么索引吗?哎,不需要啊,不需要啊,这个大家得搞清楚,得搞清楚啊,OK,那这就是,呃,咱们这给大家讲到这个这张表的这个建表语句,咱们一定搞清楚啊,也就是这张表我们实际上是PA qui格式的啊,排格式啊,那我读取这张表当中的这个呃,文件的时候,那肯定是什么in input for呀,可那是PA亏的in input for对不对啊,是这样的啊,只不过这呢,它相当是有一个这个就一个特定的语法,你这写store的as pack,其实这边呢,相当于star的as,什么input for mind是什么,然后output for mind是什么,能理解吧啊,它会自己给你进行解析的啊,啊就是这样的一个东西。OK,那其实你把这个表你给它建出来啊,你看咱们试一下啊,来我这试用的鸡毛数据库啊,没错,来咱们ctrl enter。
05:00
嗯。这张表,哎,咱们这个呃,Connect refuse的啊,这个直接连接了是吧,这应该可能是我这个什么呀,可能是我那个have so to,它下边估计OM了什么的,那你可以去看一下日志啊,你就遇到这个问题,怎么看,是不是看咱们have的日志啊,我默认是在tmp at硅谷下边。艾硅谷诶L,然后呢进呃,这是不是有一哈log呀,咱们开有杠500,还有点log你往上翻。诶,这怎么有一个。还有什么,有个shut当怎么我GPS一样。我进城没了是吧,我看一下啊,这咋回事,怎么自己没了呢。哎,没有报错呀。西门庆的行,这个怎么没有日志啊,比较奇怪啊,行,那我现在再给他,给他重新起起来吧,啊,重新起起来啊,还有四度。啊,那让他起起来,起来之后这个比较慢,还得等一会啊,那一会我站在这呢,想给大家演示就是什么啊,就是你把这个表建出来,建出来之后呢,咱们在这呢,可以执行一个show c table,对吧,然后这时候你就能看到它最终解析成的那个剪标语句对不对,你就会发现它解析完之后呢,这个star as,它最终还是变成了什么呀,还是变成了store as input format是什么,Output format是什么啊,其实是一样的啊OK,那大家这块呢,搞清楚就行了啊行,那咱们这个时间比较长,咱们总结一下啊,这张表当中,我们这个前面语句大家需要注意的第一个,呃,比较简单的一个事表明,那第二呢,字段怎么来的,根据咱们的日志来的,对吧?啊,那再一个呢,这张表需要分区,那最后呢,这张表呢,需要进行列式存储加拉缩压缩啊,然后呢,列式存储加拉缩压缩,它们是一个什么样的一个关系呢?啊,这个文件的格式本质上还是帕奎的格式,并不是拉杜罗。
06:54
啊,完了之后它压缩指的什么?是卡馈的内部每个列进行压缩所采用的格式对不对,那所以这时候呢,我们还需要考虑这个压缩,它支持不支持切片嘛,不考虑,因为爬会的自己支持就行了啊那所以这儿呢,我们大家看啊,我们这儿用的是拉祖罗P嘛。
07:11
不是拉就是拉字罗,这你用什么也可以啊,什么snap是不是也行啊,这你根本不用考虑切片的问题啊OK,那这个就是在这儿咱们提到的这个数据的格式啊,行,那这块咱们就说完了啊,下面语句搞定啊,下面语句搞定呢,咱们把视频也录一下吧。
我来说两句