00:00
好,那接下来呢,我们来写这个。代码啊,咱们的这个访客独立访客对吧?啊,那我把这个类名给我拿一下啊。还是DWD层?啊,咱们呢,是这个traffic流量域对吧?呃,Unique visit UV嘛,啊独立访客,然后detail明细啊,然后呢,我们。那。呃,接下来我们把刚才的步骤我们来写一下啊,首先。第一步。呃,叫什么呢?获取执行环境对吧,啊第二。读取。卡夫卡哪个主题?页面是这主题对吧。创建。
01:01
刘。哎,那我们留创建了,创建好之后呢,咱们要把它过滤啊,就是把我们只保留上一条等于none。且为了后续方便操作,咱们是不是把它转成这个接送对象会更好一点啊对吧,好,那我们呢,就是第三步,哎,来合体对吧,嗯,过滤。第。上一跳页面部位。None的数据并。将每行数据转换为。杰森。对象。对吧,啊,咱们还是一样的,用一步来做这个事情啊,本来呢,可能要用两步。啊,你先转一个监对象,然后过滤,或者先过滤再转监测对象,这都可以啊呃,那我们呢,就一步到位。对吧,好,那接下来。
02:00
第四步。按照。Mid。分主播对吧,第五步。使用。状态编程实现。按照。Mid的去重功能。对吧,好去好除以后那就简单了,就是将数据写到卡夫卡对吧。将数据写到卡夫卡啊,那这里面呢,比较复杂的其实就是这。对吧,就在这已经展出来了啊,当然还有第二个呢,我们到时候还得再聊啊,执行环境啊,拿一个啊。把它拿过来,第二个读取卡法的数据对吧?啊对,我先把这个变量定义好一个topic,诶这个名字有点长,等会呢,我们去摘一下啊,自己敲容易敲错对吧,跟RO。
03:02
ID。好,那这个主题那必然从这拿对吧,咱们的配置logo啊。页面这个主题对吧,呃,God呢,还是一样的,用我用它啊。他。嗯,咱们简短一点吧。教这个。下划线。叫UV就行了,对吧,前面的前缀呢,我们就可以不要了啊,然后加一个211126对吧,把这个呢变成一个小写啊。好,那这两个都有了,有了之后呢,我们可以去取出这个,因为点。ADD source对吧?嗯,然后这边呢,还是一样的,My YouTube.get的一个consumer,把这个topic跟这个group ID进去,那这样的话我们就得到了一个卡夫卡流。啊,得到一个卡法的一个DS。对吧,好,那接下来呢,我们要过滤这个呢,一并做了啊,给一并处理了对吧。
04:02
嗯,那咱们这。首先呢,我们又要过滤又要转换用。Fla map对吧?啊,那我们就直接写卡SD Fla map这个呢,我们之前是写过的啊,我们快写一下。福来卖啊,杰森。Object。好,那这里边儿呢,我们直接做一个转换啊,那。杰森。Pass。加V得到一个K价,当然这个东西呢,它有可能会出现。错误,假如脏数据呢,对吧,我们考虑到这个问题呢,我们就还是一样的啊,但是这个呢,我就没写测输出流了啊,那这边呢,呃,你要想写测数流,你就得用process把它写到测试流里边,对吧?这个呢,我们可以打印一下这个数据啊,假如说出现了脏数据。把这个数据呢,直接做一个打印啊。呃,你你要是想保留这个。信息对吧,假如你看一下这个错误,因为啥对吧?啊到底啥错的啊,你也可以看一下啊,这异常信息对吧,接下来呢,这个杰森object也不一定要输出。
05:10
对吧,因为有的数据呢,我们可能还是过滤掉。啊,过滤掉就是上一条页面。不等于,那我只要那对吧,好,那我们肯定要取上一条页面的数据吧,对吧,你看啊,它在哪呢?在配置里边,然后呢,叫last配置ID啊,所以呢,我们在这边叫获取。上一跳页面。ID对吧,那就是value,哎,不是value的拿接的点点get,先获取我们的配置,然后。再获取谁呀?Last配置ID。是吧,CTRLCTRL加V啊,得到我们的结果,这个呢叫last page ID啊,那我们要怎么做呢?If。
06:01
这个last page ID,它等等于,那我就要它等于not对吧,我就把这个数据输出out.connect。接森好吧,接对吧,完成我们要的一个功能,这个呢倒还好,对吧,你就取上一条页面,然后呢,我们取只取。等于none的这一条就够了,对吧?好,那count out加V得到我们的变量,这个呢,我们就得到了一个杰森。OGDS啊,当然呢,它应该是with no拉倍ID,但我们就不写那么多了,对吧,它里面只有上一跳为none的这个流里边。那不等于那的都干掉了。对吧,好,这是我们的一个过滤啊,就搞定了。
我来说两句