温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那咱们接着周六的这个啊,课程进度啊,咱们把这个2.5这一节呢,再重新的呃,详细的再讲一遍啊,咱们当时只是简单的粗略的过了一下啊来,那2.5这一节是在干什么啊,2.5这一节呢,就是在讲咱们整个触仓五层是如何去建表的啊,当然这说的是建模,但是咱们之前说了,在书仓里边的所谓的建模呢,呃,就是去呃考虑我们需要建哪些表,然后呢,需要去考虑表当中有什么样的字段对不对啊,然后表与表之间啊,是否有这个关联关系,其实就考虑这些啊,或者是哪张表和哪张表之间是有关联关系的啊,就在考虑这些问题啊啊,那接下来咱们就一层一层的去逐渐逐步的去考虑啊,咱们先从第一层开始,Ods层啊,Ods层呢,咱们前面说了,它叫做原始数据层,那它它的作用就是什么呀。啊,其实就是将文件和have表中间是不是做一个缓冲啊,对吧?啊,那我这个文件要想导到have表里,我肯定需要先有一层这个表去接收这个文件啊,那所以说ODI层它的作用就是这个啊,O层的中的数据呢,和我们的原始数据其实没有多大的区别啊,所以说这一层我们不需要做什么事啊,就是保留原始数据就行了啊啊那既然是保留原始数据,那所以说ods层建表的时候呢,咱们就得考虑了啊,就是你的原始数据是什么样的,那我建表的时候我就是什么样的,其实这很简单是吧?啊,那接下来咱们把这块再来重复一下啊。
01:32
先说咱们这个ods层的这个表的分类,我们分为两类,一类是日志表,一类是业务数据表啊,那日志表呢,大家得知道啊,咱们日志表是这个,呃,怎么考虑啊,怎么考虑,咱们得考虑我们那个日志文件是什么样的,对吧?啊,咱们大家都知道,我们日志是通过买点来的,买点的时候呢,虽然我们收集了好几类的内容,包括日志的结构呢,也有好几种,对不对,那但是呢,我们大家都知道,我们最终那些所有的所有种类的日志,其实都是发送到了相同的日志服务器里边,对不对,所有的种类的日志呢,都混杂在一个文件里边了,对不对,那是这样的啊,也就是说我们传到HDFS上的这个日志文件呢,它里边包含了多种类型的日志啊,是这样的啊,只有这样的一个路径,只有这样的一个路径,那所以说我们建日志表的时候呢,咱们没有办法啊,我们就只能是只建一张表了啊,把这个所有的日志统一先放到一张表里,那这个最终肯定是要分开的,要解析的。
02:33
什么时候再解析呢?往DWD层到的时候,咱们再解析啊,再去这个分开啊,是这样的啊,OK,那这就是我们呃日志表,我们这个建表的一个思路,只见一张表啊,然后建完一张表,表里边我们有什么样的字段呢?那这还是基于这点考虑吧,因为日志当中,因为日志文件当中,我们就是呃一行就是一条完整的日志啊,一行就是一条完整日志,它里边呢,是没有给咱们一个一个一个字段一个字段的给咱们切开的,没有,那没有的话,我们就只能是先建一张表,这张表当中只有一个字段,这个字段呢,就是一条完整的日志啊,同样是往DWD层放的时候,咱们再给它解析开啊,解析成一个一个的字段啊好,这是日志表,那接下来呢,说说说咱们这个业务表,业务表相对日志来说呢,它要简单一些啊,为什么?因为业务表呢,我们本身是来自于分行数据库的,那关系数据库里边的数据本身就是结构化的,对吧,那咱们到了HDFS上呢,它仍然是结构化。
03:33
是以具体某个字符进行分割的这种文件啊,那所以说它建表的时候,咱们就呃,本着一个这样的思路就行了啊,你导过来了哪些表,我就建哪些表啊,一一对应就可就可以,那表当中的字段呢,就和你导过来的字段是一致的就可以了,而且顺序呢,你不能发生变化啊,就是你导的时候,比如说是ID name啊真点,那你建表的时候也得是跟它对应着,也得是ID name,真的你不能这个呃顺序颠倒,顺序颠倒是不是那个字段就错位了呀,相当于是吧,啊OK,这是咱们这个业务表啊,很简单,O Dis层没有什么逻辑啊好,那然后需要大家注意的一点呢,就是ods层的表呢,咱们是不是也得进行这个分区啊,啊也得分区,因为我从这个呃,Hfs从那个呃,数据库也好,从那个日志服务器也好,我们导到HTS上之后,它就是一天一个路径,那所以到了ods咱们诶正好一天一个分区就可以了啊跟它对应上行,这是ods。
我来说两句