00:00
OK,我们看这个商品主题的第一个需求啊,是统计商品个数,那我们去统计商品个数的时候呢,我们前面讲了,我们既要去统计一个SK的值,也要统计一个s pou的值,对吧?那这个怎么去统计呢?呃,首先啊,要统计商品个数,我们首先能反映到的应该是从去从哪张表里边去拿数据啊,首先能反映到的是不是应该是去从咱们那个商品主题款表里去拿。对吧,因为商品主题宽表我是一个什么,我是一个全量表,对不对,也就是说我所有的商品是不是都在这张表里边啊,而且一个商品对应一行,那我要去统计咱们这个商品个数的话,是不是就直接count就行啊,按照我们常理来说,诶,对,没错,是这样的啊好,那现在咱们打开这个商品主题款表看一看啊,D wts ku topic。那dwts k topic,那这张表看名字我们就能知道这张表的力度是什么,这张表力度是应该是SKU。对不对,也就是说我一行数据是一个SKU,那我要想统计SKU的个数,那那就比较容易了,直接抗的清是不是就完事对吧?那要统计SKU呢?哎,那就不行了,你直接看看就不对了,对吧?那PU应该怎么去统计,那我们来拿下来看一下啊。
01:15
可是ZF3,诶不好意思按错了,F盯一下,OK,那这张表呢,这个字段比较多啊,比较多,那我们不看其他东西了。往下往下拉,我们就只看前,诶先缩小吧,咱们只看前面那俩值啊。退回来拿到最下边,把这个商品主题来给它放大放大放大,好,那现在我们看一下啊,我们刚才分析过了,要想统计SKU个数,直接count形式就行,那统计s puu呢?诶这时候同学同学可能会想到啊,哎,我直接怎么办?直接count的SPU是不是就完事了?对吧,驱虫,然后看看,哎,确实你这么去算的话呢,结果是对的。结果是对的啊,结果是对的,呃,Dwtsku topic数据不对吧,里边的呃,S ku不是唯一的。
02:05
呃,是唯一的呀,那这张表肯定是唯一的,我们这张表是一张全量表,商品全量表,商品全量表就是说我们一行数据就是一个SKU。那你那个数据不对,可能是你前边往这张表里边导数据的时候,是不是是不是出现过问题啊,嗯,可能是那个自己数据问题,如果说咱们那个数据自己导的时候呢,没有问题,如果导的没有问题,那你往里边去导数据的时候,应该是OK的,也是OK的啊。呃,跑一下这个是吗?那我去跑一下啊,来CTRLZ。呃,那我看一下这个同学这个这个东西啊,咱们查一下,这是从咱们这个主题宽边里边取前十张数据是吗?来回车。哦,那这张表里边这个有多个一是吗。有多个一,那这边应该是,呃,前面这个导数据的时候应该是有重复啊,应该是有重复,应该是有重复,那这边按照常理来说呢,我们这个SKU应该是这个唯一的才对,应该是唯一的才对啊呃,那这边我到时候我再去看一看,你们前面这个导数据的时候怎么导的啊呃,按常理来说,这边导的时候是没错的。
03:16
对,这肯定是自己导数据的时候导的有问题,导数据导的有问题啊,那这边我到时候再去看一下吧,到时候再看一下啊,因为这个呃circleq前面那个数据呢,我我我自己没有跑啊,这是我把那个呃,我是把那个咱们前面那个呃老师的那个集群拿过来了啊,那可能里边前面有点问题,我到时候我去查一下,我去查一下啊OK,那如果说呃文档上的语句可能错了是吧?行,那一会我检查检查吧,按照常理来说啊,那咱们首先这个DWT层咱们数据呢是。是那个力度就是SKU,也就是说一行数据一个SKU是不会出现这种现象的啊,肯定导数据的时候出问题了,那到时候我再检查行,那现在咱们就先按照什么啊,就先按照,呃,咱们这个这个数据是正常的去讲啊,先按正常去讲,那现在呢,我们开始去做啊,按照它去讲,那接下来呢,呃,咱们打开这个笔记,我们开始去想一下我怎么去获取这两个值,那按照同学的这个想法呢,我可能这么去求是比较方便的,From dwt,然后UV topic,呃,不是UV啊,应该是SKU topic啊,从这张表里去选,那选的时候呢,我要想去统计SKU的个数,那就直接count行Co count行,哎,就完事了,那下边要统计Su的个数呢,那可能就这么去做了,直接Co。
04:38
Cut count,然后来一个d count distinct,然后这里边呢,来一个SP,然后这个下游线ID,对不对,你这个circle,你这么去写,嗯,这个结果其实就出来了。就是这点就这么两行就出来了,但是这么写不好,前面咱们讲过不要去使用counter distinct的,尽可能的不要这么去写,呃,那所以说这边呢,咱们还得怎么做,还得给它拆开,还得拆开,怎么去写呢?还是得先搁如外驱重再count distinct,所以拆开,那这个拆开咱们怎么拆呢?看一下文档,这个S呢,咱们就不敲了啊,因为这个呃相对来说比较容易我拆,呃,我那粘出来之后呢,给大家看一眼就行了啊来,粘出来。
05:21
CTRLC。F3CLV,好,大家跟我一起来看一下咱们这个circlel,看一下这个circlel啊,这边呢,它有两个子查询,这是第一个子查询,然后下边呢,是第二一个这个子查询,第二子查询啊,咱们来看一下这里边子查询怎么样的,我们先来看一下啊,先来看一下咱们这个第一个子查询,第一个查询呢,比较容易,就是select from这张表,然后这个count星拿到的就是SKU的个数,拿到就是SKU的个数啊呃,那前面我们为了跟下边那个PU个数进行join,是不是也是给他补了一个日期啊,一会用日期去进行join,用日期进行join啊好,那接下来咱们往下看。
06:03
下边呢,呃,这里边这是咱们那个PU的这个个数的统计,那这个怎么去统计的呢?首先里边先干什么,先对PU进行驱虫,那驱虫的时候呢,同样是使用的BY驱虫的。可入外驱虫啊,OK,那去完重之后呢?呃,是不是还得以它再作为一个子查询,然后下边才能进行count呀,对吧?你这边如果说这直接写count芯那是不对的啊,如果这直接写count星,那是不对的,你必须得干什么,必须把它作为一个子查询,然后再去count星,得到的才是s puu的个式,那同理,为了跟跟上面的SKU上,我加了一个日期字段。那他俩join的那个条件是不是就是按照这个DT这个日期进行join呢?招完之后呢,上边诶我再进行选择就可以了,这就是咱们这个商品个数的这个统计啊好,那我把这个视频先录一下。
我来说两句