00:00
好,那接下来呢,写我们的这个内容对吧,直接把这个名字拿过来啊。然后呢,还是写上我们的思路第一步。获取执行环境对吧,第二。读取卡夫卡叫DWD层下单主题数据创建流对吧,那第。三步。啊,第三步。呃,我们要转化为杰森对象提取时间戳对吧,转化为。接这项并提取时间出啊,我们先提取一下,我之前说了,其实时间桌这种东西呢,你在过滤之前提取它有好处的。
01:02
对吧,因为我们是200毫秒一次,200毫秒一次嘛,默认的对吧,所以呢,你先提后提,其实是它的一个。我mark数量并没有多,或者并没有少,对吧,所以呢,你先提有什么好处呢?你在过滤之前提你数据更多,你呢就容易触发计算,因为如果说特别像那种去重的那种操作,特别像按照u ID mid去重,你想想看到了晚上对吧,几乎就没有什么新数据了,都是老的数据了,如果你在这后面提取时间桌,你就感觉这个时间桌它就不动了。是不是,所以呢,我们还是在前面把它提取一下啊好,那之后呢是第四步。提取时间中之后我们要按照订单明细ID分组做去重,这个去重呢是去重left join产生的重复数据,对吧?好,按照user那个订单。
02:00
明细ID分组对吧,好,第五步去重。这部系统是由于由。Left。产生的。重复数据对吧,它是由left join产生的,这个重复数据没有问题吧,我们把这个驱动掉,好,那第六。这个驱动号之后呢,我们就可以转化为招聘了。对吧,啊。转化为招聘对象啊,那接下来是分组开窗聚合。按照SQID分组对吧,开张聚合,开张聚合之后我们就关联维表,补充维度信息对吧。好。那第。
03:05
九步,那这个都已经所有的都搞定了,将数据写出的。Cly house。最后一步,启动任务。对吧,最后一步启动任务就好了,呃,那第一步获取执行环境,我呢直接拿一下,我不拿DWD的,DWD里边有那个什么。DW里边有这个什么table env还得去掉,对吧,比较麻烦啊,我们直接找一个DWS的拿过来,然下来要消费这个什么下单主题数据创建流,刚好我拿到这个不就是吗?对吧,拿过来。呃,一般来说呢,我们还是把消费者组改一下啊。叫SKU。好的。
04:02
再多一个SKU就行。SK凹的window好就找它好吧,那我们这个数据流就有了,接下来转化为Json对象并提取伸出,呃,不写了吧。好,又一样了,你看整个都一样了啊呃,那点A我们直接做一下啊,Worldmark strange for bonded out of。两秒。七三哦价格了。下单数据还是一样的,这里边儿呢,把它直接拿过来对吧。好,那这样的话呢,我们就得到了这个杰森object的一个DS,我估计写在一块啊,这样的话它就识别不了他就他打那个波浪线,让人感觉还是很不爽的。
05:09
OK吧,啊,咱们就这样写一下,那这样的话我们就得到它了,然后按照订单明细ID做分组点。K杰森啊,那我们找一下这个订单明细ID他叫什么对吧?嗯,来把它拿来啊。这个放在最后吧。订单明细ID。好往下翻,呃,那这里面呢,有ID的ID,那订单明细ID明显就是这个谁了,就是这个ID了呗,对吧,并不叫all的detail ID,而这个字段呢,是我们要用作。去重啊比较的这个字段对吧,杰森点。Get a stream。就叫。D对吧,CTRL加V得到一个键控流。呃,这边呢,因为我们下面还有一个分组对吧,所以呢,我们叫key by detail ID。
06:06
啊,就是这个写明白,因为这里边的有两个分组了,对吧?啊,先是分组做驱虫,后是分组为了开窗对吧,在这边还有一个分组。开窗聚合的一个分组对吧,两个分组,所以呢,我这个叫kid by detail ID,这个呢,到时候我们就写kid by s ID对吧,那就做一个区分嘛,相当于OK吧,好,那这一块呢,我们就搞定啊,还是前半段都比较简单熟悉对吧?都读取过滤转换分组数据搞定了。
我来说两句