00:00
啊,那接下来咱们准备往里边导数据啊,往里导数据,那咱们导数据的话,往这张表里导数据,咱们应该采用哪种方式?呃,只能是漏的了啊,只能咱们往一张表里导数据,咱们大致两种方式吧,一种是insert into或者allright,那一种呢,就是哎,Load了,那咱们这肯定是load啊,那咱们一起把这个load语写一下吧,来一个是load date什么。In pass吧,啊,那用加local吗?不用,咱们现在数据在哪ES对不对,那所谓load date in pass,然后后边呢,后边是不是就得写那个pass了呀,那pass咱们那pass是什么,Pass在哪忘了是吧,咱们找一下啊来是不是就这个pass啊,CTRLC啊把它拿过来。C啊,Orien,然后呢,积贸log topic log,然后的日期啊,是不是就这个路径,然后后边呢,咱们接上一个,诶,Into,诶,Table,嗯,后边加谁加上ods log啊,那这个就完事了吗?肯定不能完事,为啥?因为这张表咱们分区了,然后你往里漏的数据的时候,是不是得指定我漏得到哪一个分区里边才行啊对不对,那所以后边呢,还得写一个啥part PAR啊part啥里边呢,写一个括号,括号里边呢,我们需要指明你要写入的分居它应该写到哪一点的分句啊。
01:16
是不是就是六月14的分区,那DT咱们就等于啊,哎,2020杠零六杠幺几幺四,那就完事了,大家会发现啊,这是不是它那个给爆红了呀,对吧,这个呢,是因为咱们这个data grape呢,在这儿对这个语法它不支持啊,但是咱们这个circle是可以正常执行的,所以说它爆红就爆红,不用管它啊来这是呃,咱们这个往里边导数据的这个语句啊,咱们就说完了。啊,然后呢,我们还有一个小点需要注意一下啊,呃,注意什么问题呢?咱们现在是不是这条语句,我们是不是是以一天的数据为例的呀,咱们就指定的6月14号的数据,我往里边倒,那你说咱们这个开发完之后,这个任务是不是需要每天重复执行啊,对不对,那你说这个日期到时候咱们怎么处理一下。
02:07
军事期总不能都是倒6月14号的吧,那咱们这个怎么处理一下呀。怎么处理一下?你到了你第二天执行的时候,你把这个搜狗写到脚本里,你不能还让他跑14号的数据,对不对,那是不是每天获取前一天的呀,就这个怎么处理一下呀,可以。是不是就跟咱们那个S库那个脚本的道理是一样的呀,对不对,咱可以怎么做,可以把这条SQL语句封装到一个shell脚本当中啊,然后呢,是不是在shell脚本当中,咱们可以写一个时间变量啊,时间变量让它自动获取前一天的日期,然后把时间变量是不是替换到咱们这个日期的位置,是不是就可以了呀?那这个脚本每天重复执行,那它执行的是不是就是前一天的数据了呀?哎,就这么去做呗,啊,这是咱们一会要写的脚本,咱们一会再说啊,那现在呢,我们这个其实这一天的任务呢,现在还没有完成啊,没有完成咱们现在这个语句能将ods层的数据导到这张表里没错,但是你你来看一看啊,咱们这个路径下的数据啊,你看一看,它是不是还缺点什么。
03:14
是不是还缺点什么?这是不是只有一个拉泽罗稳健?缺什么东西,对,缺索引,因为拉多了文件啊,它其实咱们都知道它能支持切片对不对,能支持分片,但是它是有条件的,得有得有索引才能支持分片,对吧,那他现在并没有索引。啊,那所以咱们还得需要怎么做呀。是不是还得见左眼呀,对不对,那这时候咱们诶回顾一下,我们好像死库那边跟他好像不太一样,你看啊,咱们看DB,你看死库的数据导上来之后是不是就有索引了,但日志咱们导上来之后没有索引,对不对,这是咋回事啊?啊,这个其实有没有索引,完全是人为的对吧,所以我们自己导导致的对吧?那咱们怎么做呢?我们死库那个脚本里边是不是咱们函数里边有两步啊,一步是导数据,一步是见索引,对所以咱是不是数据导上来之后就给它见索引了,但是咱们日志这边呢,咱们是用辅录往上导的对不对,辅是不是只管压缩,不管电索眼呀,对不对,那所以说那这时候咱怎么办呢?
04:14
那我就可以把数据导到哪儿啊,导到表里边之后,咱们再索,再建索引是不是也是来得及的呀,对不对啊,你只要保证在你从这个ods的表里查数据之前,你把索引建出来就OK了,那所以说咱们这时候呢,再建索引也不迟啊,这个什么时候建无所谓啊,哎,那这时候咱们在这建索引,那键索引我们需要写一下那个键索引的那个语句啊,咱们就不手敲了,直接把文档这个粘过来,那这是加载数据,那下边那个呢是诶创建索引那CTRLC。来,大家看一下这个剑所演的语句能不能看懂啊,海做这儿是不是加上咱们拉斯罗那个炸包,然后呢,指名剑所演的那个全列名,然后这是在干啥?指定have队列,然后呢,这个是你要进索引的那个路径,那这个路径你注意观察,这是哪块的路径了,是不是那个hi务表的路径了呀,Warehouse集贸ods啊warehouse集贸OD SOS log,然后呢,你那个数据导过去之后呢,是DT等于它啊这是咱们一个路径啊,OK,你需要把这个注意一下,那当然这边在这应该是have的客户端嘛,所以海多这这个他会报错,咱们给它注释一下就行啊啊,那这个就是呃,我们对于这个日志表啊,咱们这一天要做的工作啊,一天要做的工作就是这么多啊来,我把这个视频呢先录一下。
我来说两句