00:00
好,那接下来我们就要讨论一下,讨论一下什么问题呢?那你看我们主要列举的是这个replacing motor,还有这个sum米motor税,那想必啊,咱们这个实时数仓DWS仓就要从这两个里边去选了。对吧,好,那这两个大家想一下应该选哪一种呢。选这个replacing。还是选这个桑米娜。一还是二?大家觉得,然后并阐述理由啊,并说明一下理由。是一还是二呢?
01:11
啊,大家都觉得这个一。那看起来不是二更优吗?我们未来不就是按照那四个维度要做聚合操作做查询吗?我们不就是按天去算吗?去做聚合,做查询吗?为什么大家都会选择一呢?那明显我用第二种的话,它的效率更高呀。为什么大家统一的都选择了第一种,大家说的是密的。那我第二种也有优势啊,对吧。
02:00
有没有那种一棍子把第二个打死的?你一有幂等,我二可以聚合呀。第二种,不保证一定聚合完,嗯,那我说了可以用some去做处理吗?对吧,嗯,查最终查询的时候可以加一个扫。先保证准确再谈效率,这个没问题啊,其实先要保证这个准确性对吧,如果说呃,用的是sunny。那假如说任务出错了,我任务挂的。对吧,任务挂掉之后呢,呃,重启把这个数据重新消费了,我又写一次,那又写一次的时候,由于我们之前用的是这个。用的是失件时间对吧,用的是失件时间处理的,我们当时说了那个地方其实还有一种解决方式啊,就ug大家还记得吗?邮界啊,他他在正常处理的时候看不到,所以我们把这个呃,沃特曼延迟时间加了这个十秒钟啊,提到了这个12秒对吧,邮件就能看到了,当然我们说了还有一种方式,我们可以按照处理时间来。
03:25
开窗,我们可以完全可以按照处理时间来进行一个开窗,但是我们没有选中这种,那时说了,因为可以会考虑到隔离耗里边一个点啊,那如果用处理时间的话,你挂了re replace也不行,里面的心也不行,对吧,因为你是把数据已经聚合好,按十秒钟,十秒钟聚合好再写出去的,但是如果我们按事件时间呢,就没有问题了,对吧?哎,他可以把这个数据保证这个准确,但如果sum米不行,Sum米假如挂掉了,你重新消费,重新消费往里写,但是他已经搞不清楚你写的第一次还是第二次,第三次了,对吧?所以他没办法保证这个数据的一个准确性,最重要的是这个点啊,当然优先保证数据的准确性,再谈效率没有问题。
04:09
对吧,其实就是这个意思,好,那既然我们想好了用replacing motor tree,那大家能不能告诉我,关于这几个字段我们应该怎么写?这几个字段我们应该怎么写?对吧,首先爬梯任脉我们写什么?一个一个讨论啊。分区我们写什么?嗯,没有人回答了吗?我们按什么进行分区?
05:12
想一想啊,我们应该按什么进行分区?十秒四个维度分区吗?你看答案就奇奇怪怪的了。Create ts开装时间进行分区。STT。啊,STT进行分区是吗?那也就是说十秒一个区域是吗?
06:04
啊,按天,班长说按天YYYMMTDTD,按天。大家觉得分区啊,你有同学说十秒一个区,那你觉得合适吗?大家记得我们这个区啊,在这里边,在克林浩里边,它一个区是一个什么。一个文件夹,哎,那你要十秒一个分区,十秒一个分区,你不疯了吗。对吧,不可能分区能分到秒啊,所以按天是对的。对吧,按天分区好,第一个按天分区,往往来说我们都是按天分区啊,一天一个分区对吧?好呃,接下来主键,主键我们先不聊,因为它是属于索引对吧?索引没关系啊,假如奥曼,我们拿什么东西作为奥曼?就all的字段,我们应该用如何选择?
07:14
四个维度,嗯,还有没有不懂的。要要想啊,要想一定要思考这个问题。向总说,按照这四个维度,还有没有不同答案?班长说四个维度加两个时间啊,那两个时间肯定就是开窗的开始和结束时间了,对吧,其他同学呢,还有没有再想啊?其他同学也可以思考一下啊,有自己的想法都可以说一说,这个才是最关键的,对吧,你学了很多的东西,最后你要用了。
08:00
啊,那这个时候呢,我们才学核心的才学三个引擎对吧,Motor tree replacing motor和so motor,你就学三个,你三选一。啊,跟柯南一样,经常的经典三选一对吧,你选一个,那你未来学的东西越来越多,是不是可选择性就越多,你要思考对吧,每一种情况应该怎么做,有什么好处,有什么缺点。班长说,四个维度加两个时间。那相等说四个维度,那我们想哪个更好一点,还是说只能取一个,还是说两个都行?其他同学在这两个基础上去思考应该选择哪一种,是四个维度还是四加二?大家觉得哪种更好一点?其他同学可以来想一想啊,来把这个答案,把你自己认为的写在这个。弹幕里边。
09:01
啊,我来了解一下。四加一啊,俊豪说四加一,嗯。其他同学呢?就就这么难吗,这个题。四加一啊,又来一个四加一。那我们想一下,大家为什么都抛弃了四个维度,或者说四个维度它为什么不行,有没有同学说一说,或者向总你自己说一说,对吧?你现在有没有想过,想明白四个维度为什么不行?为什么只按四个维度不行?大家的答案呢?都至少带了一个时间,班长带两个对吧?你你现在向总,你现在自己能不能想明白四个维度为什么不行?对,班长给你回答了,因为主要原因在于什么,我们是按天注意,按天分区的。
10:05
我们前面聊了,你要注意我们聊的东西都是连贯的,我们是按天分去的,那一天每十秒钟啊,这个零秒到十秒,十秒到20秒,20秒到30秒,对吧,他都会有这四个维度吧。是不是都会有相同的这四个维度的组合,那如果按天分区,我们知道它在按天范围内进行去重,那是不是说十秒到20秒会把这个零到十的覆盖掉,20~30的会把十到20的覆掉,然后30~40的又把20~30的覆盖掉。对吧,因为他在天范围内记忆什么。进行去重,那你只按四个维度,那我每十秒是不是都会有这四个维度的组合?对不对,所以其实这个里边啊,如果说我们要选all by的字段,那。是四个维度至少加一个时间,但是加两个时间也可以,对吧,我加一个STT,或者说加一个e dt,至少得加一个。
11:09
大家思考一下这个问题啊,因为感觉这个问题大家不是很明白,因为很少有人敲弹幕。比较少,但是我相信说四加二或者四加一的同学应该没有问题。对吧啊,像班长啊,俊豪啊,子贺啊,都都没有问题啊。那你看没有问题的一点,咱只有三个人。啊,只有三个人对吧,其他同学呢,现在能不能明白了。我们首先按天分区,你不能按十秒分区啊,那如果说咱们按十秒分区啊,假如说十秒一个区,十秒一个区,那没问题,用四个维度是不是就够了。因为注意replacing啊,Mo tree它是在区内做驱同,对吧,如果说你真的按十秒一个区,那四个维度肯定是够了,但是我们说了它一个区是一个目录文。对吧,那你这个也太夸张了,十秒一个区,你一天得多少个目录啊,对吧,不能这样玩啊,肯定不能这样玩,所以最后呢,我们选用按天分区。
12:06
我们就选用按天分区啊,那要注意replace税呢,它是在分区范围内进行去重。啊,分区范围内进行去重,也就是说他在天一天的数据范围内进行一个去重,那如果说这个时候按四个维度,那就有问题了。对吧,只按四个维度,因为我们一天范围内是有很多个不同的窗口,而每一个窗口里面都会有。四个维度组合。啊,那也就相当于你后十秒的数据会完全把前十秒的数据覆盖掉。对吧?会把前面十秒的数据覆盖掉,OK吗?解释到这个程度大家能明白吗?怎么感觉还是有问题啊,大家疑惑的点在哪?如果说你不明白,你有疑惑,你可以把你疑惑的地方打在这个弹幕上,让我看一下。对吧,有同学觉得有疑问,那你可以敲出来我看一下,大家共同来看一下啊,有同学帮我解释更好啊,肯定有同学呢,会帮着回答这个问题,你看这个一明显很慢啊,明显很慢啊,大家可能还是存在一些小问题,要思考一下,对吧?要思考一下,但这个问题并不难啊,我已经说明白了,已经给他说了,对吧?把它讲出来了,你就应该能想明白。
13:21
啊,但是还是有好多同学,有没有同学愿意分享一下你的会里面的点在哪啊,让大家共同来看一看。你说一下你不明白的点。也没有啊,反正就是我不敲一我也不说我哪不会。是这个意思吗?那我就没办法了,对吧,我问大家会不会你也不扣一,然后呢,我问你有什么问题,你也不说,那我就帮不到你了,我就没办法了,好吧,好,那如果说你有问题再单独找我,行,这是我们所看到的,最终我们做了他俩的对比,也就是说我们学完之后一定要想一想,对吧,我们到底应该选用哪种引擎,因为我们学的就这几种,那肯定在这几种当中去挑。
14:12
对吧,这个毋庸置疑,所以说我们选择的空间呢,其实比较小啊,在这个当中选呢,呃,很容易就选到正确的答案,对吧?但是呢,你选到了正确的一个引擎之后,你还得思考一下我们到底要怎么用,对吧?是这个意思啊,就跟之前我们设计key一个道理啊,我们在想存什么数据啊,用什么数据类型,然后呢。这个选定数据类型之后,我们得想一想这个K怎么设计,不光把这个想完,想完之后呢,你还得想一想用你未来怎么用对吧?因为用的话会决定了你这个东西设计的合不合理啊,需不需要这个收据量大不大对吧?需不需要做这个TTL等等一系列的问题对吧?未来主查啊,根据什么查,这个都是你要考虑的问题,一样的,在这边选择引擎的时候,你要没有最好的引擎,这是最合适的。
15:01
对吧,好,这是我们一个对比啊。
我来说两句