00:00
来我们看一下,呃,前面咱们分析过了啊,我们把日志解析到五张表里边,按照内容解析啊,那我们这个五张表呢,也是呃从简到难的一个,呃顺序吧啊,前两张表很简单,那到了第三四张表呢,相对来说难度呢就要就要大一点了啊,我们先从简单开始啊,咱们先来看看大家这个水平怎么样啊,来先看第一个第一个启动日志表啊启动日志表。啊,那咱们启动日志表呢,咱都知道这个表肯定是用来装这个启动信息的,对不对啊,肯定装启动信息,那接下来我就得问一下了啊,那这张表啊,那我里边的一行数据应该指来的是什么。然后呢,这张表当中应该有什么样的字段,咱们得考虑考虑啊,当然我这儿呢,都都有都有都都有了是吧?啊,咱就别看了啊,咱们自己现在思考一下。这张表中一行数据应该存什么东西?这是咱们建表的时候,或者是去熟悉一张表的时候,首先要搞清楚的东西,对吧?一行数据指来的是啥?
01:04
啊,完了之后呢,再去确定这张表当中具体的字段应该有什么。啊,先说一行数据应该表示啥吧?应该表示啥呀。咱们得考虑这样的问题啊,咱们这张表是DWD层的表对不对,WD咱存的什么数据,明细数据,那所以说这张表它也不例外吧,它也是DWD的,所以它是是不是也得存明细数据啊,那对于启动来说,那你说我的所谓的明细数据应该是就是什么呀。那是不是最明细的一个操作,就是一次启动啊,注意是一次启动啊,一次启动啊,那也就是说我这个这张表当中一行数据,那应该指代的就是一次启动记录,这个应该没错吧?啊,最明细的数据嘛,啊啊这点搞清楚,那接下来咱们再来考虑,那这张表当中,那我所应该包含的字段应该有哪些?那首先咱们先明确这张表,它里边的数据来自于哪种类型的日志,是页面日志还是启动日志,肯定来自于启动日志,对不对?那启动日当中呢,我们有这样的几个字段啊,这么多字段。
02:13
那你说谁应该包含在启动日志表当中呢?死袋的是肯定得有的,这是肯定得有的,对不对,那这个TS要不要呢。要因为它启动时间对吧,咱们肯定得有,那这个艾瑞要不要呢。艾瑞要不要?艾瑞要不要,艾瑞不要啊,为什么?我艾瑞是不是有一张自己的表啊,咱们有一张表是专门用来存错误信息的,对不对,用来分析错误,所以它呢,咱们不能要啊,那关键就剩下最后这个common了,你说common要不要放在启动表当中?这个咱们得考虑考虑啊,要不要放。要不要放啊,那肯定要放的,如果不放,那你看一看这个启动日当中只有什么字段,只有一个启动的方式,加载的时间,广告等等啊,只有这些东西,那这些东西你怎么分析啊,估计也就是只能分析个启动次数了,对不对,能统计一下广告的总播放时长什么的,那这有什么意义呢?没有什么意义啊,为什么?因为你并不知道启动是谁启动的,对不对啊,你你这么多的描述信息是不是都没有啊,对不对,那所以说那这些东西呢,我们也应该给它放到这个启动日志表当中。
03:23
啊行,那这就是我们,哎,刚才对这个启动日表做的一个规划啊,也是最终启动日表当中我应该包含的字段,应该有启动star的字段,还有这个字段以及common公共字段啊,把这些都得包含在启动志表当中啊,再往下翻这个呢,就是启动日志表当中的啊,这个相关的东西。啊好,那接下来呢,咱们就来思考一下啊,那这张表咱们应该啊,怎么去这个,呃,往里边导数据啊,应该怎么导。啊,这张表大致是什么样的,我们应该已经比较熟悉了啊。表示这字段咱们也搞清楚了,一行数据是什么咱们也知道了啊,怎么往里导数据啊。
04:06
往一张表里导数据方式两种,一种insert加select,一种是漏,对不对?那首先咱们先明确,这肯定是insert加select了,对不对?那select是不是得一张表,那咱们这辅哪张表啊?是不是只有一张表啊,现在ods log呗,对不对,所以肯定是从OS层log来啊,O log那看完之后呢,那怎么把这个ods log当中的启动日志给它找出来呢?对不对,因为ods log里边我既有启动日志也有页面志,对不对?那咱们怎么找到启动日志呢?页面如果得过滤掉,对吧,怎么过滤。你要知道它现在只是一条一条的字符串啊,那怎么过滤啊。韩过滤。怎么过滤啊?有谁?是不是咱可以这样去过滤思考一下啊,可不可以这样来,我这个来给大家看一下啊,怎么过滤啊,咱们可以从ods层落个表里啊去查数据,然后查出来之后呢,我我我外部过条件怎么写啊,我用get算object啊,我去尝试着获取一下。
05:18
Start字段。对不对,因为启动日志跟页面志它俩区别就是它有start,那个没有start对不对,然后咱们用get object去获取一下这个字段啊,能获取到那它就是啊获取不到它返回就是啥,就是闹对吧?哎,我就把那些为闹的数据是不是可以过滤掉啊,过到之后剩下的就是全部的启动日志了,那剩下全部的启动日志之后呢?那咱们需要怎么做呀。是不是需要把启动日当中我们需要的那些字段一个一个的给它解析出来呀,对不对,那这个解析用谁解析。是不是还是用get介object来去解析啊,哎,大致就是这样一个思路啊好,那这个解析的思路呢,我们就分析完了,分析完之后呢,那咱们就开始正式来去做这个事儿了啊好,那我把视频先录一下。
我来说两句