00:00
好,接下来呢,我们再来看一下这个商品主题对应的宽表啊,商品主题宽表,那宽表呢,跟其实我们上面讲那个柜员主题宽表道理是一样的啊,这里面呢,只有四类。比如说四类数据,哪四类数据呢。开始时间。结束时间啊,然后累积过程,以及最近三十日发生的事情。哎,就这么四件事儿,这么四件事儿你要搞清楚,那剩下事就简单了,那来看一下在这张主题宽表里面有哪些信息,首先第一个SQID,因为我是商品的,那我肯定有SID,还有呢,是啊,它的品类ID跟品类相关的啊,这不是品类,是这个啊,就是类型,相当于是一个小类一个小类。跟相关的这个主题。
01:00
支付。支付啊再支付,然后这呢是退款,退款下面这个是加购,再往下呢,我看这啥加购在加购之后,这呢是收藏啊,评论看着好吓人的样子是吧,这么一看,哇塞,这里有好几十个。啊,晕了。就把这几类,一定要把这些字段分成几类去处理,我们来看,一个一个看最近三十日下单次数。好简单的样子,对吧?哎,只需要在这个呃,我们是在news里面啊,把这个三十日所有的信息给它处理完,那之后到这呢,只剩变成一个数字了,最近被呃30被下单的件数,其实次数和件数没啥大的一个区别啊,没啥大区别,而且这张呢,次数和件数我们都可以从这个对应的啊DWS层直接可以拿到。最近下单的金额,涉及到金额就是some,涉及到上面什么次数就是count啊,Count,这都是count对吧?啊累计被下单的次数,Count累积被下单的件数,Count下单的金额。
02:13
最近三十日被下单的次数,哎,在这个新的表里面进行三十日的一个count,呃,这呢是最近被呃30的件数啊,这个这个底层这个也得上啊,这也得加数呢,是这个也得得得加支付金额。这个呢也得加。框架最原始的是count啊,Count完之后呢,你要把count完它count完的结果和另一个count完的结果进行一个累加啊,是这样一个过程啊,那往下啊,这个是累积被支付的次数。啊,被支付造势,累计被支付的件数。累计被支付的金额。你发现有什么变化吗?没有什么变化,只是来源于不同的表而已啊,不同表而已啊,这下面的话我就不大家看了啊,其实都一样啊,都一样,那这这个这块看一眼吧,最近30好评数中评数差评数,默认评价数什么什么数。
03:06
啊,先count完之后再上一累加,累积好评数,累积中评数,累积差评数,累积默认评价数。E涉及到数,先count再上搞定,那往下这块啊,这块呢是具体的向这张表里面插入你想要的数据啊,想要数据那最简单的方式就是有新的取新的,没新的去旧的,这是第一个事项啊,第一个事项啊,那往下这块呢,往下的话,如果是累积30天的。累积30天呢,那我就往下啊往下找。上面这块。这是老的。这是老的。这是old吗?对吧,Old就扫描它全表全表都知道,其实这块呢,你要不写这个,不把这个列列出来,你可以怎么办?是不是星啊,哎,放个星也是可以的啊,如果你放个星,就是把这张表里的数据全部都取到啊,是一样的。
04:01
那往下呢,是这个out for下面这块。下面这块呢,就是你看它那个外条件。诶。啊,这呢啊,这个条件仍然是过滤这个近期最近30天的一个数据,用这个商品ID进行一个分组,那只不过这一块比以前多了一些,比如说比用户的也多了一些。多呢,它也是分两部分,分哪两部分,首先是今天单次发生的所有事情。单次的订单次数。各这是件数,然后订单金额支付次数,支付件数支付金额啊,退款次数,退款件数退款金额。全是这些啊,都懒得说了啊,其实都是一样的啊,没有什么这个啊,本质上的一个差别。啊,其实正常情况你把它删掉,你就扫聚合两张表啊,也是OK的,也是能接受的,呃,下面这块呢,下面这块就是正常的一个累加。
05:00
就是正常的一个sum累加,把最近三十日的所有的数据进行一个累加,之前我说过啊,你可以在这个新的表里面,也就是说通过这个时间,因为这个时间呢,是当天和最近30天的所有的数据都在这呢。我可以在这里加,你也可以在旧的表里面拿出它最近30的数据啊,也还好啊,也是可以实现的。啊,那你哪哪招都行啊,哪招都行,那我至少我这种招数呢,是啊可以实现的,比如说把最近三十日的所有的指标数据获取到,获取到之后呢,在上面的时候,在你后面这块判断的时候,只要涉及到三十日的,那只要它不等于空,那就直接把这个值取出来,等于空就填零。哎,人一空的天灵啊,这是整个这么一个,呃,大的这个circle看起来好吓人的样子是吧?啊吓人的样子,不知道大家自己写的时候能不能搞定啊,那这里面有个小插曲啊,有个什么小插曲呢?你看这个有旧的和新的,这个招完之后。
06:01
额外呢,用LEFT1张表。招这张什么表呢,叫S啊商品把它呢进行一个招,招之后这里面主要取的是,嗯,我看啊不是是他跟谁呢,赵呢,跟这个有一张表。Dwdmsq in啊,对,就就这张表啊,这张表。关。他取的是谁呢?有一个字段,它原来他取不到,比如说你下面这个主到是哪个呢?是他。这的。原因在这,原因就是你下面这些字段它都能够取到,但是我要想取这个poidd的时候。在界面的时候,这里面有一个ID。我是不到的。那取不到你就得去关联找啊,啊关联去找,关联找到谁了呢?找到了下面这个。嗯。啊。在这噪音。这张表。
07:03
它在这上面,在dwddmsq in for里面,它存储着对应的PID,查一下啊。给你们看一眼。你说有个小小的插曲。在上。这里面你要想取这个pod啊,Pod的话,你可以从这去取啊,从这取你就把它关联上之后,这里面就能够提供对应的PID啊,跟我们以前的道理是一样的,如果你想取某一个值的话,取不到怎么办?那你关联另一张表,另一张表再关联另一张表啊,直到能够关联上。比如说中间我想取这张表,他俩一下子关联不上,那中间有个值,我先关联它,它再关联它啊,就能把它值取到啊,是这么一个事情。
08:01
啊,回来回来之后还是商品主题块表,那这块有同学是不是该诧异了,说你这什么突然间从这个DWD去取了一张,取了一张数据啊。不知道大家有没有这种差异哈,DWD。呃,再给大家说一下啊,咱们这个成绩啊,它关系是这样的,其实。最底层ods,再往上DWDA,然后往上呢,这块呢,这是DWS啊,然后呢,这是d w tas。有同学说那不对呀,那海哥你这你说的应该是这样的。诶。嗯,这样也行。行就放在这吧,啊,准确来说你可以是这样去认为,怎么去认为呢?这是ods。这是DWD。啊,这两例到DWD,这这是为上面所有层提供公共数据的,它的力度都是一条一行数据。
09:07
它的力度是什么样的力度哈,最小力度是最小力度。它这里面保存了最小力度,它能够分析后面的所有的数据,因为它的一行表示的是一条。一条数据,那你像我这个填表这个也是DWSDWS,其实我们已经对它进行了一个轻度聚合。对吧,已经叫一个轻度聚合了。为什么叫轻度聚合了,我们是这一天发生了什么什么事情,因为最后进入到这个DWS里的数据是不是都已经变按天的一个力度了啊,是一个天的力度,那我只能统计一天发生什么事情,那到这儿呢,到这儿更是了,它是一个累积过程。
10:05
累积过程,那它的力度。更大对吧,啊更大也就说比你这个天还大。还大,那日后呢,这个呢是d w ta啊DW ta这呢是ADSADS,那日后我分析指标的时候,哎,我要是能从DWT出啊DWT出,那我就从DWT出,DWT出不了,我可以从DWS里面去取数据。如果DS不行的话。极端情况你是可以从DWD里面出去的。啊,这点要注意哈,那当然了,DWT既可以从DWS取出去,也可以从DWD取,唯一他们谁这些人不能从哪取呢?不能从ODH啊,不能从这取。DWD里面聚合的最小的力度,那后续的话,我们可以把它关联成什么呢?K,用这个K进行多维查询,多维查询处理,比如说你们后面应该是下周二,下周二的时候就会讲到类似的kding,那K它对接的直接就是这个DWD啊,就是麒麟啊,就是麒麟,它是会从这一层去分析对应的数据。
11:19
啊,像那个美团,它内部就这这么使用的。直接从这里面最小力度,这呢是按天的力度,再往上的,这个力度呢,是累积的一个过程,可能最近累积30天发生什么什么事情啊,要深刻体会一下这里面每一层代表的含义,包括每一层的力度,这就是为什么咱们舒仓建建模的时候说我们要第二步叫声音力度。因为不同层级的力度真的是不一样。啊,不一样了哈,好,那这是这块啊,稍微扩展一下啊,扩展一下,所以说这块呢,你是可以关联到,呃,对应的。DWD层的数据的啊,是没有问题的,你是可以从DWD拿数据,你说没有必要非得从DWS上出,好,那这个呢,我们来嗯做一下啊做一下把这个结果呢复制一下。
12:11
这个也是啊,大家呢,这个今天晚上好好消化一下,如果消化不了的啊,可以单独找我啊,有问题的可以单独找我。行,那这块这个搞定,搞定之后呢,这里面插入数据。你说你要把这个数据分成四类。开始的,结束的,累积的。以及30天的。啊,这么来处理。这是商品活动主题。想再借个脑子没啥大问题,像这个脑子不至于吧,啊,这个就是量的问题啊,你觉得你看啊,如果你你详细的去分析,比如说就是订单啊,订单这一个。
13:08
那就可以了,你把一个分析明白,那其他的我觉得你那个体力活可以复制粘了啊,就没必要了哈。只要搞定一个就行了啊,还是像那个刚才子阳说的,这个不比那个优惠券那个简单多了,哪有优惠券那个难呢,没有那难啊,只不过这里的字段会比优惠券那个多。但是呢,说实话说是多,如果你在跟企业的比的话,他那个比你的还多啊,比你的还多啊,所以你现在呢,就要养成这种习惯,在在这种多字段,但是没有复杂逻辑的情况下,你能不能把它搞定,如果你现在这种事环境下,你已经适应了,那以后去企业的时候,你会发现,哇,它怎么这么简单。嗯。嗯。行,那这个搞定搞定之后呢,我们来查一下啊。脑子说看懂了,手说你说啥咋写?
14:01
嗯。这个上午不都给你们敲了吗?你看我这里面我我前两个啊,这个用户会员主题的啊,还是都给都给大家敲的啊。嗯。看着知道很多啊。这也正常,你们在企业的时候,你像你要做这个宽表,会给你一个月的时间,一个月的时间你怎么对,你对不出来呀。行,那这个表上数据也都拿到了哈,就拿到了,这呢是商品宽表对应的一个主题。
我来说两句