00:00
呃,那做测试呢,我们想一下啊,这个地方我们应该要开哪些东西了,开的东西好像还蛮多哎。对吧,首先我们应该拿到我们的D啊,Base DB啊,不是base log啊,应该是base log,对吧,把它拿过来。把它拿过来啊,拿过来好以后呢,接下来DWD,注意我们这个里边呢,要从DWM层有两个主题,所以这个中间明显。要有什么?Link。APP对吧,消费我们的数据,将数据写到哪,又写回到搞不搞。这个呢,是属于我们的DA wm,好,然后接下来呢,又有我们的Li APP消费这个数据写回到。
01:05
对吧,写助我们的k house这子的一个内容啊好,那接下来呢,我们把后面的补充完整啊,就是在这个基础上,这两个APP一个是什么UV。一个是ug的APP吧,两个都要啊,然后呢,是我们的卡卡。最后呢,当前这个是这个啊。好,写入到我们的click house,当然在隔号之前呢,我们现在只是做一个打印,我只是做一个打印对吧?行,那这些东西呢,我们现在把集群去开一下啊,要开行为数据,这属于行为数据要开n spring BOO啊,卡不卡ZK对吧?那这些东西就够了啊。好,那ZK点还在这大。点。
02:10
好,那这个东西呢,就搞定。对吧,呃,搞定好以后呢,接下来我们继续。CD到OBD Mo到这个。哎,我们就不进去了,到这来啊,然后呢,速度。然后呢,它底下有一个目录启动对吧?好,那我们东西呢,像log哎,看不看不卡。好,那这个地方呢,就搞定。对吧,我们所有的集群上的服务都已经开起来了,那这我们来开一下,首先是base log,然后呢,UVUG加上自己的对吧,那我们从贝斯开始看啊。
03:02
四个啊,有四个。等待它的一个启动。好,被log呢,应该已经启动了,然后接下来我们到DWDDW2层当中有一个UV,对吧,把它提起来。还有一个you jump ug。
04:08
哎,UV这是之前的数据对吧,那暂时先不用管这个啊。反正我们刚才那个。Visit APP呢,我们新搞了一个组,对吧,他不会消费以前的数据啊,老的数据上不会消费啊。有的jump。然后接下来呢,是我们的visit APP啊。呃,U v ug visit state APP,好,这个呢,十秒钟出一条数据,对吧,等会啊,因为我们窗口是十秒钟嘛,十秒钟出一条数据,好,那这个时候呢,我们接下来继续到这边CD的J末,Link rt AP log里边,我们最后只剩下这个造数据是不是就好了,对吧,知道吧,看。
05:12
这样,然后呢,G20走。然后我们在这边等着啊。Visit啊。秒钟。好,这边呢,有数据来了,那我们再等十秒钟,我们也能看到窗口的。当然我们用的不是今天数据时间我没改对吧,它十分秒用的是现在的十分秒啊,啊这边呢,每隔十秒看这是40~50的,第一次是30~40的啊,因为刚开呢数据比较慢一点,好,那这个呢,我们就看到了这个数据。对吧,我们多跑一会儿啊,等会儿呢,这里面其实有一个小问题。好,这是一个窗口,一个窗口中间的我们都间隔一点空空隙啊。
06:08
跑起来对吧?呃,那这个时候我们来看这个数据啊,大家都有了,呃,那比方说这条数据啊,它有这个UV。对吧,PVSV,然后呢,周围线time啊,然后呢,都是ug都等于都等于零,发现没。Ug啊,那其他的都是有数据的对吧,其他你看随便挑一条数据,诶其他都有,就是这个ug怎么样都是零,那我们要检查一下,当然ug它数据量最小没问题,因为它是要求比较严格嘛,但是我们看一下ug这有没有数据,这也有几条数据了呀,你看啊,Ug就好几条数据了,我们看几条数据了。邮件也有六条数据了呀,对吧?啊,那到这边you visit this,我们来检查一下,我们来检查,我现在把这个数据停掉。
07:00
我把数据停掉,我们来检查一下这边打印的数据对吧?啊,我们直接搜啊ug想玩CG对吧,等于零啊等于零的话,它有多少114条,好,然后呢,我们搜这个。注意看啊,这个是114啊,一百四我给他摘出来吧。注意我说的是ug等于零的是114对吧?好,那我再搜他。注意看,我搜的是它了,变黄了对吧,它也是114,说明什么问题,说明我们所有的数据当中,Ug都是等于零。对吧,但是我们明明看到这边有六条数据,那六条数据它肯定也不属于,都不可能属于,都属于最后一个窗口吧,你看这个时间差别还挺大的,你不能说都属于最后一个窗口,刚好最后一个窗口没出来,对吧,肯定不是这样子的啊,前面你看这个时间121对吧,每一张数据时间呢,对不对。啊,不可能都属于最后一个窗口,好,那也就是说我们的UV数据压根就没进来。
08:05
压根就没进来。对吧,为什么呢?有没有同学知道这个原因,想一想。就这么巧,一条数据都没进来,虽然我们之前说过ug,它的数据确实产生的量肯定会最小。对吧,但是也不至于这样。想一想,有没有同学知道这个原因?有没有同学能分析出来这是什么原因导致的?因为如果当我们不知道原因的时候,我们就不知道怎么去改呀。
09:04
对吧,啊,到底是出了bug呢,还是我们之前代码写的有问题呢,导致这种情况呢。对吧,就是ug,就是没有其他的数据都有对吧,你比方说UV对吧,PV这个数据呢,肯定会比较小,PV肯定是最大的,PV肯定最大的。Cep过期时间能不能说清楚一点?能不能再详细的描述一下?模式匹配的时候within的时间,对啊,那我知道CP的过期时间是指那个V时间没问题,然后呢。
10:01
然后呢,为什么会导致这个问题呢?对,计算完十秒后窗口早关了,班长说的没问题啊,那我们来看一下啊,首先第一个我们要明确一下,所有的流转换类型的时候,我都是用的数据当中自己的时间戳,用了自己的时间戳对不对?好,这是第一个,第二个我们来看为什么会出现这种现象呢?比方说我们一条配置数据,PV数据对吧。因为我们要找这个,呃,跳出它也是一个PV啊,这个PVPV一个数据来了哈,首先它是不是会进。Lo那个主题呀,叫D。WD配置log主题对吧?好,接下来有两个人消费这个数据,一个呢是我们的ug消费数据,另外一个呢是谁呀?
11:01
是当前我们的访客主题这个APP对吧,好,这里边时间戳,比方说啊是十。时间桌是一个十可以吧,我举个例子啊,大家注意听啊,是十,但是呢,由于这边啊,这边访客他直接读这个数据对吧,然后接下来十数据来了,他是不是开十和20的窗口。他就开窗了。对吧,他就开装了,好,那接下来大家还记得ug呢,我们加了一个微信关键字。秒钟。对吧,同时还设置了个一秒的延迟,我不知道大家还记不记得,我应该是设置了个一秒的延迟。对吧,好,那你看啊,这个数据来了,这个数据来了,它如果是一条我们的ug数据,它往往是不是在十秒后才会输出,就是说它数据里面的时间还是这个时。
12:03
TS啊,它的还是十对吧,TS是十。但是呢,它输出消费这个地方,是不是还消费我们这个ug主题的数据,对吧,消费过来好,但是你收据事实,但是已经十秒后才会消费到吧,是不是这条数据过来了之后,往往来说这个窗口就已经怎么样。被关闭了呀。对不对对吧,那你想这是十,我举的例子十,那当然十这个两秒啊,它应该不会关闭,那比方说这个数据是15呢。这个数据假如15呢,15对吧?好,那这个窗口它是不是还是属于十到20的窗口,它是不是应该在22的时候就关闭了,但是你要到什么时候才会过来25的时候吧。是不是25这条数据就产生了,你才过来。能不能理解我刚才所说的?
13:00
整个流程能不能理解?自己稍微思考一下。就是在于同一条数据被两个不同的流消费掉了,但是有一个流呢,它要多十秒才输出,那你这个十秒的窗口是不是关闭掉。对吧,就关闭掉了啊,所以呢,这边我们要改一下,有多种方式,第一种呢,我们可以用这个事件时间啊,把它换成处理时间。换成处理时间,但是不建议这样,因为不好。啊,因为不好,因为如果这样的话,你未来没有了密等性,对吧,你消费相同的数据,它往外写的时候,数据不具备密等性了啊,所以我们肯定要用时间,时间,那我们就提高它的延迟,我把这个改成什么20秒时间。诶,不是不是这个窗口不是它啊,我们改这个这个地方我们延迟一秒钟对吧,我们延迟个11秒进去。
14:05
对吧,延迟时间增长一点。啊,因为在ug里边,我记得这个地方我也延迟了一秒,哎,这个地方两秒,假如说我把这个改成一秒,改成一秒好,那这个地方呢,我延迟11秒。对吧,我延迟11秒,但是这个时效性就差了,但是没办法,因为只要用到UGUG这个数据,它就是没办法保证时效性啊,你要想U借这个数据,你怎么保证时效性。对吧,它是由的降本跳出,那你要等到数据没来,一直没来,才能找到它的一个跳出。对吧,啊才能找到跳出,所以只要跟ug相关的指标,没办法做到那么精准的时效性,这个没问题吧,所以呢,我们就把这个改成了11,延迟到11,好,接下来我们再做测试,重新做测试啊。好,那为了让数据多一点啊,因为这个UV啊,它是全今天范围内做去重对吧,今天范围内做去重,那这样也行啊,我们改一个时间,我就不不不重新启动那个内容了,对吧?啊把这个时间呢,我改一下啊,这个2021,我改成今天零八。
15:19
哎,今天都30号了,马上九月份了,对吧。好,那我把这个保存一下,对吧,我就不重启这个数据了,如果说要不然的话,这个UV数据就特别少了,对吧?UV数据特别少,U的项不用管啊,有的不用管啊,然后呢,Visit states啊,重新启动了没有问题,然后接下来呢,我们再找数据。这个时候我们就看一下ug有没有数据了,对吧。好看这啊,Ug来了一条数据,对吧,这是第一条数据来了,接下来我们看贝UV也来了visit states。等他打印啊。他要稍微要等一会儿。
16:02
我们稍微等一下,他得等到下一个窗口对吧,下一个窗口才会去,呃,放到里边啊。好,这个时候呢,我们搜邮件有没有等于一的。哎的,怎么样。就有了吧,U件数据本身就少啊,他匹配上一条诶两条了,看两个对吧,就会增多了啊,我们调整了一下,确实是刚才那个原因导致的,对吧?啊,确实刚才那个原因导致的,因为U界的数据啊,它确实相对来说呃,要少一些嘛,邮界的数据确实要少一些,对吧,所以呢,这个四条了来看啊。对吧,就不像刚才我们明显跑的比现在的时间要长,但是它还一直是什么,一直是零条,但现在呢,就不是了,它会越来越多,越来越多了。对吧,啊,它会在增长,它会在增长好现在的四点我们看一下啊。还是四条,还是这个四条,现在没有产生这个数据,因为这个数据量本身就小嘛,这个可以理解对吧,但不是像刚才一样,一直是零了啊,一直是零肯定就不对,明明产生了还是零肯定不对啊啊。
我来说两句