温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那接下来我们看ods日志表的数据装载啊,那这儿有一个PPT,呃,这个PPT呢,描绘了呃这张表的装载思路啊,那现在呢,我们先来一起看一下啊啊打开这个PPT,那大家现在看到两部分内容,那第一部分呢,指代的就是日志文件,后边呢,就是它在HDFL的路径,那第二部分内容呢,指代的是ods层的日志表啊那假定现在的日期是2020年,哎,6月14号啊,那这一天产生的这个数据呢?呃,会经过我们的采集通道,是不是传输到这个路径下呀,对吧?那假定这个就是14号产生的那个日志文件啊,那我们接下来要做什么事呢?哎,其实很简单,我们要做的事儿呢,就是将14号产生的日志啊,给它load到ods层日志表,14号的分区当中对吧,诶其实就是这样一个操作啊,相对来说比较简单啊,那到了第二天,也就是2020年6月15号,那是不是会在这个路径下产生。
01:00
15号的这个日志啊,对吧,那现在诶假如就已经产生了啊好,那我们要做的事应该是什么呢?很简单,是不是就将15号的这个用户型日志漏到我们ods日志表15号的分区里啊,对吧?这个相对比较简单啊好OK,那后续每一天我们要做的操作其实都是相同的啊好,那再一个呢,由于我们这个用户行为日志是没有历史数据的啊,那所以说他第一天的装载逻辑跟后续每天的装载逻辑都是相同的啊好,那装载思路我们就说完了。那接下来我们一起去写一下这个装单语句啊。啊,其实很简单啊,就是一个装载语句,就是一个漏的语句啊,那假定我们现在的日期是2020年,杠零六杠,诶146月14号对吧,那我们要写的语句应该是什么呢?应该是load data,然后呢,In pass,然后找到我们14号的日志所在的路径,是不是就是这个路径啊,对吧,拿过来。
02:00
然后呢,放在这个位置。CTRLV,好,那后边呢,需要补上into table ods log,然后别忘了需要指明分区啊,DT应该是等于2020杠零六杠幺四啊,那这个装载语句咱们就写完了啊,大家要注意的是啊,这个语句执行完之后呢,那这个路径下边的文件是不是又会漏到这个路径下呀?对吧,这是大家需要去注意的啊,OK,那漏了过去之后,我们还有没有其他要做的工作呢?其实还有一个啊,大家要注意观察一下啊,现在咱这个日志文件呢,只是进行了拉走了压缩,并没有创建索引啊,那所以说我们再把这个呃拉走勒文件load到have表之后呢,还需要再进行一步创建索引的操作啊好,那接下来我们继续看啊。好,那这个创建索引的语句呢,其实相对来说比较简单啊,主要是使用海多这或者是雅安这去提交一个map producedu任务,那对这个拉了文件去创建索引,OK,那现在我们拿一下这个创建索引的这个命令。
03:11
CTRLV,好,大家来看一下,这个其实比较简单,海子布这儿,然后后边呢,指向拉泽罗那个炸包,后边呢是它的全类名,那后边呢是我们要创建索引的拉左了文件所在的路径啊,当然这个命令呢,它是一个shell命令,我们在data RI当中是不能执行的啊,这里要注意一下,好,那这就是我们呃装载数据的时候需要做的两步操作啊,一个是将文件load到have表当中,那一个呢是对load到have表诶中的文件创建索引啊OK,那这一步我们就完成了。
我来说两句