00:00
好,那接下来呢,我们去看一下啊,这边呢没有专门的文档,但是呢,其实官方文档就够了啊,没有做这个专门的文档啊,但是我告诉你官方文档呢,就足以我们学习了。啊,哪有什么文档比官方文档还好呢,对吧,嗯。打开这个link官网。对着官网学习就行了,对吧,不需要其他乱七八糟的一些东西啊。其实我上课呢,就很少去用这个文档。只不过说呢,有时候需要带着大家看一下文档,告诉文档当中呢,有些东西可能跟我写的不一样啊,有一些呢,嗯。知识点说明的文字可能带着大家看一看,这需要你自己去仔细去看了,但是我就没有深看了,对吧,那个图我用了一下,因为这样的话就避免现场画图,现场画图呃。比较。慢对吧,所以呢,提前做好这个PPT啊,就是现场画图,可能画一遍画完了,我PPT讲对着PPT讲能讲三遍都有可能对吧。
01:06
课件不少也是从官网开源来的,对呀,你你东西不得来自于官网嘛,只不过说把它翻译翻译。对吧,啊,就翻译翻译啊,什么叫惊喜啊。突然想到了这个。嗯,打开我们的文档,还是看这个01:13对吧。呃,然后呢,咱们要学习的内容在哪呢?点到这个application data stream API里边有一个operators操作,对吧,点开。点开好以后呢,这边就有一个draw。看见了。这边就有一个draw。啊,这边就有一个draw啊,那这里面呢,有这个window看见没。有啊,有join,有process function。还有一个ay nc的IO对吧,E步IO啊,那这里面呢,就引跟EIO没有讲到了,因为我们window操作讲过了,然后process方讲过了,对吧?啊,那这个项目里边呢,其实这两个东西都会用了,一个join,一个这个ASYC的一个IO,这个都都得用啊。
02:12
好,那我们先看这个状语。啊,先看这里。Join呢,它分为两大类,你看见没,你看右边啊,它在在右边。一类呢是温度状语,一类呢,是。状语。啊,做核酸,那你去吧。那两大类,一类window window呢,又分为三小类,Tom跟session。对吧,滚动滑动绘画啊,那就时间窗口呗,啊好,那in动状语啊,那是什么东西呢?对吧,那我们先了解完这个温度状以后,我们来看一看啊,它是不是和我们的。应用场景,我们再聊下面的可以吧。呃,那豌豆装呢,我们来看一下啊。这个它怎么写呢?首先spring对吧,Join other spring2个流嘛,肯定留一留的状,两个流他不聊了,Will。
03:05
哎,里边要一个key select.equal to select,那么就是说你join你得有on字段嘛,对吧,这个呢是STRING1。取个字段,这个402它俩要相等对吧,然后呢window,诶开窗,开窗之后呢,和play里边写一个状语方式,就把你关联上的数据,你做一个输出,做一个加工输出就好了。对吧,好,那我们来看啊,它的一个滚动窗口座椅,它是这样子。哎,在一个窗口内部做状语,看见没。对吧。一个陈留一个绿流对吧,两个人呢,去join。而且你能告诉我这个东西是沉留在照应绿流,还是绿流在照应沉流吗?能不能看出来啊。
04:07
这个是。陈留。照引绿流还是绿流转引成六,能不能看出来?嗯嗯。看不出来吗?绿柳照应残留啊。冯总说是绿流状语成就。怎么看啊?陈噪音率,哎,你不是做核酸去了吗?你怎么还在这个很明显是陈噪音率啊,陈六赵音率流啊看谁呀,看二三两个窗口啊,看这个对吧,这个答案是什么?23332333。
05:12
对吧,2333,它很明显是什么,陈流在转移绿流吧,你包括这对吧,它是什么。4454看见没?这4454对吧?啊,它是陈留在这绿流啊,第一个窗口看不出来啊,第一个窗口看不出来对吧?啊好呃,那这是窗口的照引,它是拿着一个窗口跟一个窗口内部进行照,对吧?啊,那这个是不是有点像Spark streaming不做任何处理,直接。做照影的效果呀。是不是?大家想啊。呃,Flink当中,它这种滚动窗口的状语。是不是跟我们之前所学习的Spark streaming?
06:01
你不做任何处理,直接做join引是一个效果。是不是?对吧。它跟直接转一样的啊,就是因为我们Spark swimming必须要给一个批次大小,那这个批次一给我是不是可以认为它什么。我可以认为它是一个。滑动布场和窗口大小等于。批次大小的。滚动。窗口操作。对吧,我可以认为窗口大小。华东部长。还有这个。
07:00
披萨有这三个东西呢,一样的。但是看到一个滚动窗口对吧,这个好,那我问大家这玩意儿。他适合做旅游的join引最终产生的结果吗?他适合吗?既然我们提到了它的一个滚动窗口的照应。跟Spark streaming里边直接。不做任何操作,直接照影的效果是一样的,那很明显里边它这个滚动窗口的照影呢,不太适合做这种流的照影,因为这样的话容易怎么样。丢数据,大家告诉我是不是。他是不是容易丢数据啊。没毛病吧,它必然容易丢数据对吧?啊那为什么,因为刚好有可能你开窗对吧,我一个数据呢在这儿,一个数据在这儿,其实你们俩呢,没有间隔太久。
08:06
没有间隔太久,但是呢,划分到两个窗口里边了,它就关联不上了,所以SPA里边我们才要加,对吧?好,那这个好,而且告诉大家,它确实是陈留专绿留啊,这边orange three join green three看见没,对吧?是陈六专绿留,没有瞎说啊。好,第二个叫sliding window。滑动窗口。啊,那也是窗口内部在做照应吧,那滑动窗口它的缺点在于什么?滑动窗口的缺点是什么?滑动窗口的照应,它的缺点是什么?他倒是不会丢数据了,对吧,它的缺点是什么呢。
09:02
对了。他会有。重复数据。对吧,它会产生这种重复数据。没毛病吧,啊,那其实他也不太适合,因为下游还是驱虫比较麻烦啊,好最后一个绘画窗口。诶,那这个有点意思。什么呢?你看这空这么久他才关窗对吧?那如果是绘画窗口啊,你要注意。它呢是两个流同时满足,这么久都没有数据来,它才会关窗,那很明显会话窗口。符不符合我们的应用场景呢,对吧,那这个也不会丢数据啊,因为你没有数据来了我才去关窗。对吧,当你没有数据来了,我再去关窗。那不就不会丢数据吗?对吧,因为关装的时候,你在很长时间没有数据来了,我才关装对吧。那这个不会丢,数据也不会重复。他窗口也跟窗口没有间隔,不看上来挺好的吗?那我们是不是应该考虑用绘画窗口呢?
10:06
大家看这个东西,能不能感觉到它里边有什么缺点呢?啊,大家告诉我。就是你你感受一下,首先呢,它不会丢数据,也不会重复数据,对吧,就刚才我们说了,呃,滚动窗口呢,可能会丢数据,滑动窗口呢,会有重复数据,对吧,那我会画窗口,你看这个。数据量太大可能关不上,为啥啊,关不啊,我懂你的意思,就是你这个数据量太大是。
11:01
说一直有数据来对吧,感觉窗口会很长,对其实一个道理对吧,好,那嗯,你呢。假如说我一直有数据,我持续一个小时有数据来,那你这个窗口不是一个小时才处理一次吗。假如说我一个小时有数据来,然后呢,停了有两分钟啊,停了两分钟,我这个间隔时间呢,给的是30秒。对吧,比如说啊,我间隔30秒,然后两分钟对吧,这几个数据一个小持续一个小时有数据,那也就是说你这个数据从刚开始来到一个小时以后才会关。那你这个还叫实时吗?大家想你你你这玩意儿还叫实时吗?还叫不叫事实啊?那是不是就不叫实时了呀?这还能叫实时吗?你你一个小时以后才给我结果。这怎么实施啊,对吧,所以呢,它呢,这个关窗的时间不确定。
12:03
搞不好呢。关不了,搞不好就关不了,对吧,你如果说我一直有数据来,是不是就像那个翔总所说的,可能关不上了,数据量太大对吧?啊,数据量源源不断的过来,也不一定说特别大吧,那假如说你五秒钟间隔时间,我呢,我也不用特别大。我呢,就。三秒来一条,三秒来一条,那你这个窗口呢,永远都关不了。是不是?是不是永远都关不了啊?对吧,他的问题就在这儿,所以呢,他这个。窗口的照影啊,感觉。不那么靠谱。对吧。啊,感觉不怎么靠谱,行,那我们这个。
我来说两句