00:00
啊,好了,各位同学,那现在呢,我们看第四张表叫做流量域曝光事物事值表,这张表也极其简单啊,呃,为什么有,为什么说它简单呢?因为咱们有了前面那个动作表的基础了,你再看这张表,它就非常简单,因为它俩特别特别的像啊好,那现在呢,我们来看一看这张表到底是怎么回事儿啊,首先咱们需要明确的一点就是这个所谓的曝光指代的是什么业务过程是什么行为,什么叫曝光?呃,很简单,其实就是如果我们在浏览PC端的页面或使用一段端的应用的时候,对吧?在我们这个屏幕上面呈现出来了某个活动对吧?或者呈现出来的某个商品对不对?OK,那这个是不是就称之为一个曝光啊,对不对?是这样的,OK,那这个动作当然跟其他的相比,可能稍微的有点区别,因为这个曝光这个事儿啊,他的这个就是主动方不是我们用户对吧,你像我们前面所讲的那些业务过程,下单也好,支付也好,退单也好,这个主动方是不是都在咱们这个用户啊,对吧?啊用户是。
01:00
动作的发起人对不对,但是对于曝光而言,这个其实我们用户是一个被动的接受者,对不对啊,是这样的啊,有一点点这样的区别啊,OK,行,那这个,呃,接下来咱们就继续往下进行啊呃,下面呢,我们就直接看一下咱们最终设计出来的这个表结构就可以了啊来把它拿出来看一看它到底是什么样的CTRLC,我们给他拿过来。看这位啊,好了,那现在呢,我把它打开,呃,好了,各位同学,那接下来呢,我们就来一起看一下这张表的建表语句,先看表名,呃,没什么特殊的,叫做display,对吧?Display就是展示曝光的意思啊好,那现在我们继续往下看,下边咱们来明确一下,就是这张表每行每列还有分区是怎么规划的,这张表每行指的应该是一个什么,一行是不是应该对应的就是一个曝光记录啊,对吧?那大家回忆一下曝光记录我们给它放在了哪哪种日志上面,哪种日志里边会有曝光记录,也是页面日志对不对?是我们在浏览页面的过程当中,是不是这个曝光才可能会发生的,对吧?所以说是为页面日志的,这个呢,一会儿咱们再去看啊好了,行,咱们基本上就明确下来了,那接下来呢,我们就来对照的这个日志去看一看这张表当中的具体字段啊,来吧,那咱们把这个所有的字段RC f3我盯在这儿,现在呢,我们打开它跟我们刚刚看到的页面日志做一个呃,这个详细的对比啊,那首先我们还是以右边这个表的字段为准,咱们对照它去看啊来。
02:21
哎,我们先看前面这一部分。这一部分是不是还是来自于common,这个不用多说了,对吧,那接着往下走看,这这是不是也有配置相关的字段,哎,这个配置相关的字段在这儿咱们怎么去理解。是不是也相当于是一个维度啊,对不对,就是你这个曝光信息对不对,你是在哪个页面上面曝光的,它是不是也可以算作一个维度啊,对吧?你是在商品详情页曝光的,还是说你是在首页的那个班那去曝光的,对不对等等等,诶这些也是相当于一个维度啊,好了,那接下来继续往下走,再往下,其实这一堆东西都是跟什么相关的了,就是不是都是跟曝光相关的来对吧?好,那这一部分字段来自于哪呢?很显然是不是应该是来自于display,对,然后你要注意在日志当中,Display它仍然是一个数组的结构,没问题吧,那我们这对应的字段应该是元素的每个字段吧,对不对?这个要搞清楚好了,那现在呢,我们逐个的对照一下,那首先呢,这里边有一个所谓的display time,这个display是不是也是一个所谓的曝光类型啊,对吧,这个曝光类型怎么解释怎么理解啊,像这个曝光类型跟我们前面所讲的那个来源类型有点类似啊,跟咱们那个来源类型有点类似啊OK,那来源类型咱们前面有个什么智能推荐哎,或者说活动的推广。
03:35
房,或者说是我们自己搜索的结果,那是我们那个什么下单呀,什么加购的那些来人类型,对吧?那对于曝光而言呢,咱们也有一个类型,啥意思呢?比如举个例子啊,那假如说我现在呢,是通过我自己搜索某个商品对不对,然后呢,呈现出来这个商品信息,那是不是就是通过我们搜索进行的这个曝光啊,对吧?那当然可能我们打开这个首页之后,我们就能够看到一些具体的活动啊等等等,那这些是不是就是它活动推广啊,对吧?那再比如说呢,我们来到某一个商品的详情页之后,那下边是不是会有什么猜你喜欢呀等等这样的一些东西啊对吧?那这种曝光呢,我们就称之为是是不是智能推荐啊智能推荐啊对吧?诶等等等等,这就是那个所谓的曝光的类型,这个理解一下啊,好,那接下来继续往下走,那下边有一个字段呢,我们称之为是item,这个item其实指的就是我们曝光的对象嘛,对吧?当然还有一个与之成对的就是这个iem tap,对吧?你比如说曝光的是一个商品,那我这就是SKU,那这呢就是商品的ID,那曝光是一个活动,那这就是活动ID,这儿就是一个具体的活动的ID,这。
04:35
对,要理解一下好了,那这是这俩字段,然后再往下,诶下边这俩是什么呢?一个是order,一个是position ID order是不是就是次序,Position ID就是位置啊对吧?这俩字段大家还记得他们的含义吧?我记得之前带大家去复习这个采集项目的时候,应该提到过这一点吧,应该还记得吧,对不对,那比如说我们再打开一下这个京东的页面啊,来咱们简单的看一下啊,打开打开之后,你比如说来到他的首页,首页你会发现这里边是不是有很多的广告位啊,对吧,这是一个,诶两个,三个四个,这是不同的位置,相当于对吧?然后呢,每一个位置下边我都有很多的广告信息,那是,所以说每个广告信息是不是都会有一个自己的次序啊,对吧?所以说有order,有position ID这一点咱要给它搞清楚啊,OK,好,那这两个字段咱们也就算是这个说完了,那说完之后呢,我们继续往右看啊,咱们跟右边的字段咱做一个对照,应该从哪开始呢?从这开始,这些都是曝光相关的,对吧,那我们这儿呢,能看,诶还有一个这个,呃,就是从这开始啊,呃,在这里边呢,我们一个一个对应一下,这有一个。
05:35
Display type是不是对应的,就是它没问题,然后下面呢,有一个display item对应的是不是就是item嘛,对吧,还有一个是display的这个item type对应的是这个type,然后order呢跟order对应,Position ID跟position ID对应,这个没啥问题吧,但是好像有俩字段,咱们是找不着对应的字段的,谁呢?就是这个时间吧。对不对,这个data ID和display time在这里边有这个相关的对应的字段吗?没有对不对,那这个是为什么呢?这个其实说实话,这是咱们买点设计的有问题啊,这个买点这边呢,我们并没有为曝光去设计一个具体的曝光时间,对吧?既然没有,那这边咱们这个所谓的曝光的时间,那咱们从哪儿取呢?
06:18
呃,在这儿呢,咱们就妥协了一下,我们取的实际上是谁呢?是跳入页面的时间,也就是正常你曝光的时间跟咱们跳入页面的时间基本上也不会差太多,对吧?那所以在这呢,我们就推而修其次咱们用的就是这个TS字段,因为你要不用它也没的没得可选了啊,是这样,这个大家要稍微的注意一下啊,这样理论上的这边我们在做买点的时候,实际上我们可以为每个曝光记录是不是都增加一个TS啊,对吧,其实可以增加了,OK啊,当然用这个页面的时间也还行,也不是差太多啊,OK,那这个大家稍微都注意一下就行了,OK,那截止到现在,那咱这张表的所有字段咱也就都说完了,因为大家也能发现这张表的绝大多数的字段也都是来自于日志当中的,对不对,唯一需要处理的就是pro pro ID这个,所以说数据装载相对来说肯定也不会太难啊,好了,那行列咱都说完了,最后明确一下它的分区还是增量分区吧,这个没什么可说的啊,行了,那接下来我们就来看一看它的数据状态怎么怎么做。
07:14
他的数据装载咱要拿的话,是不是也应该是从我们这个ods层的日志表里去拿,对不对?那再拿的时候咱要过滤应该用谁过滤,这次得用display过滤对吧?那你用display过滤,你会发现你拿到的数据仍然面临一个这样的问题,就是一行数据里边我是不是有一个display的数组啊,对吧,数组里边有多个元素,然后我这个最终的表呢,要求一行是一个这个这个曝光信息对不对?所以说我们又得有一个一进多出的操作,所以又得explore的炸裂,对吧?所以这个呢,跟刚才那个动作表几乎是一致的,这呢我就不再重复了,我们直接看一下最终这个circle是咋写的就行了啊来,我们找到它的数据状态语句,然后呢,给它往下拉,拿到这个位置CTRLC来放在这,好,各位同学,我们现在一起看一下,最终这个serve是咋写的啊?呃,首先还是先看子查询啊,这有一个select,这有一个from from OD层的log IC这张表,那之后呢,我们是不是紧跟着一个view啊,对吧?跟刚才的写法是一样的,我就不再解释了,只不过这次炸的是display的。
08:14
啊,那这个炸完之后呢,呃,上边就按照我们的需求选择我们所需的每个字段就完事了,然后注意这次呢,咱们得把那个TS拿出来对吧?这个TS咱得用啊,OK,给它拿出来,拿了之后呢,我们继续往下走,呃,由于这有一个地区ID需要处理一下,所以说需要关联这张表对吧?好,那完成之后诶,我们就可以选择我们所需要的每一个字段了啊拿到之后呢,最终把结果放到这张表十四二分区,那这个数据装载咱相当于就是诶做完了对吧?来数据与装载好,那这个视频我给他停一下啊。
我来说两句