文章/答案/技术大牛

发布

首页视频042.尚硅谷_Flink-Watermark概念

042.尚硅谷_Flink-Watermark概念

2022-12-022022-12-02 16:02:28播放37

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/042.尚硅谷_Flink-Watermark概念.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们要基于之前讲过的时间语义，给大家再往深里边讲一讲flink给我们提供的特性，这就要考虑什么，要考虑前面说的乱序数据了，因为之前大家想就是我们做这个处理的过程当中，既然考虑到有不同时间语义，有事件时间和处理时间的不同，那就会涉及到一个问题，就是说诶，你前面这个发生的事件，有可能等到进入弗link系统之后，我们在处理的时候，有可能它落到后边了，对吧？啊，就是有可能本来应该是08:59产生的数据，等到我们在处理的过程当中，他有可能就等到09:01，这个机器时间09:01的时候，我才接收到这个数据啊，那你说这个这个数据我到底是前面我那个窗口到九点了，八点到九点的窗口到底是关还是不关呢？哎，这里面大家可能有一个非常简单的想法，就是，哎，那这个很简单呀，那那就不关我，我再多等一会儿嘛，但是大家注意啊，如果说你的这个思想就相当于是什么呢？就相当于我现在还用的是处理时间对吧，用的还是这个processing，那你可以这么干，就是我再多等上一分钟，就多等上两分钟，然后再关这个窗口，但是这里面就有一个问题，你怎么去判断当前我到底应该等多久呢？哎，你说我拍脑袋想一个等一分钟，等两分钟，这个具体的这个数据它的延迟未必是这么长时间呀，而且这个还有一个更大的问题是，你直接上线运行之后，你说这个数据它的这个时间真的就一直是一直就是延迟一分钟，就就永远都是延迟一分钟过来吗？
01:41
那说不定有段时间它这个延迟就短了，对吧，当前这个网络环境好了之后，它这个延迟一秒钟就来了，那你还要等一分钟，你是不是这个性能浪费就比较大啊，那那另外有些时候可能这个网络状况就特别的差，你如果要是说还是按照一分钟去等的话，这个数据根本就收不进来，大部分数据都到五分钟以后才来啊，当然这有点有点夸张啊，一般我们网络状况不会那么差，对吧？啊，这个就是按分钟来记，这个太夸张了，一般按秒来记这个，呃，按秒级别的延迟，这个网络环境其实已经是比较差了啊，那所以呃，这只是给大家举例啊啊，那那你说你如果要是说这个数据它都已经延迟到那种程度了，你还是很死板的定死了，就就等一分钟，那那这就完全完全等不来数嘛，对吧，就要不就是说这个你延迟白白的浪费了这个等待的时间，呃，时效性我们的这个实时性就就差了，要不就是说呃，你等的话还还等不来，你等了最后还是一个错误的结果，对吧，还等不到，所以。
02:41
和正确的数据到达，那所以这里边我们的一个想法就是你不要用，不要再去想用这个processing time处理时间等待的这种方式去等到所有数据了，那我们用什么呢？哎，我们可以用事件时间嘛，哎，大家知道事件时间主要是用什么来表示呢？那就是数据本身带着的那个时间戳，所以现在我就可以怎么样呢？就是你数据，比方说哎，这个08:59的数据来了，那我就认为现在时间不就到08:59了吗？对吧，九点钟的数据来了，就带着九点钟时间戳的那个数据来了，我就认为现在我的时间到九点钟了，至于我现在本身系统当前是呃，这个09:05还是09:10，对吧，到底过了延迟了多久，这个并不重要，我只考虑现在的数据，它的那个时间戳进展到什么程度了啊，所以接下来我们一个非常直观非常简单的思想，就是我要用。
03:42
事件时间，也就是从数据里边提取出来的那个它发生的时间戳，作为当前时间推进的一个考量啊，那那所以接下来我们的时间就相当于变成这个时间戳来控制了，对吧？就跟系统时间没关系了，大家先把这个概念先转变过来，哎，那这样的话我们就解决问题了吗？其实没有解决问题，这还有一个问题就是乱序数据，哎，那首先我们来看一下啊，在理想的情况下，我们要用这个数据自己带着的时间出来，表示当前的系统时，表示当前的事件时间，对吧？当前我们要做处理的这个时间啊，那最好的情况是什么呢？就是数据就按照它的这个产生的顺序一个一个来啊，然后你看，呃，就是我们这里的顺序，就是从左到右一个一个数据来对吧，在这里边第一个数据来的时候，这里边这个数字表示是它的时间戳，那大家看到一啊，我我我们时间戳本来应该是毫秒数，我们这里面就认为。
04:42
是秒吧，对吧？啊，稍微容易理解一点，第一秒的数据先来了，那我接收到这个数据，我就认为当前的时间是一对吧？呃，当前的这个时间就是一了，你一秒钟，假如说一秒有要关的窗口，那我就关嘛，对吧，因为时间时间已经到一了，呃，所以之前的这个，呃，该到的点该到点，该做的这个操作当然就该做了，那后面呢，来了二，那我就认为现在时间到二了，对吧，两秒钟的窗口该关可以关了啊，那同样就是你后面每来一个数据，我就根据它的时间戳更新当前的时间，这样的话，我们的时间就可以不停的朝后推移，对吧？只不过现在的推移不是系统本身有一个时钟在那儿推移，而是按照接收到的数据，它的时间戳变大，来推移我们当前的时间啊，那就是比方说我有一个五秒钟的窗口啊，那大家想到是不是就直接等到这个五秒的时间，这个五秒的数据来了的时候，这个时候我。
05:42
就可以把五秒钟的窗口关闭了啊，那这个时候12345是不是都到齐了，我就把这五个数全收进来了，对吧？那这样做一个这个窗口关闭，那后边如果你再来数的话，五秒之前的数就不会来了嘛，后面再来就是六秒的数据了，它也不属于这个窗口了啊，所以这个就结果完全正确，但是这是非常理想的状况啊，现实往往不尽如人意呀，啊大家看看就是我们说的，因为有这个分布式系统的这个存在，大家知道在不停的传输的过程当中，先发生的数据，它到后边处理的时候未必是排在前面的，这就有可能出现什么情况呢？哎，我们这来了的数据变成这样了，大家看145236，如果这样排列进来的数据，我们一个任务接收到他的时候，你认为当前的这个系统时间应该是多少呢？
06:33
按照我们的规则，一来了之后，诶，那现在系统时间是一对吧，那四来了之后，系统时间变成四了，已经四秒了对吧？五来了之系统时间已经是五秒了啊，那有同学说，那二来了之后，难道系统时间再跳回到二吗？那肯定不会对吧？我们的时间当然是就是沿着一个方向朝后朝后推移的时间不能跳转啊，青春不能再来对吧？啊，所以这个过程肯定是不能不可逆的，所以这里面就有一个问题了，我现在要关闭五秒钟的窗口，五秒钟有一个窗口的话，零到五秒对吧？嗯，那这个窗口是五，这个数据来了之后我就应该关了吗？大家想想是应该就关了吗？
07:16
这是一个问题了，我们当然可以关，对吧？按照这种方式，五来了之后，我直接就关，得到的效果是什么呢？收到的数据零到五秒的数据是1453个数据。但是。但是大家发现后边可能二和三才姗姗来迟，这个时候相当于这两个数据他来的时候窗口都已经关了，对吧，计算都已经输出了，这个数据是不是就丢了呀？啊，所以这里边就会出现数据的丢失情况啊，那当然有的同学可能想到了，有一种解决方案是什么呢？诶之前我们讲那个window API的时候，不是有一个允许处理迟到数据嘛啊，对吧？啊，就是每一个数据，呃，每一个窗口关闭的时候，我可以再给他延长一段时间啊，这段时间我可以继续等后面的这个数据啊，这是一种处理方式，后面我们会统一给大家讲啊，这确实是flink里边处理乱序迟到数据，这个不算乱序数据啊，处理迟到数据的一种手段，但是我们这里边又会想到，就是你如果说总是所有的这个窗口，让他多等一段时间去处理这个的话，一方面哎，我们这个，呃，就是本身窗口的这个状态不能释放，对吧，一直得等。
08:29
哎，这这是一方面这个影响，另外一方面就是说我们实际的这个场景里边可能是什么呢？诶可能这个这里边如果是秒的话，这个还还算延迟比较大了，对吧？更常见的情况是什么呢？是大量的，就是这种乱序的数据来了之后，他们相差可能就那么几毫秒，几十毫秒，然后就是很短的这个乱序的程度，你这个时候如果窗口直接等你等上一分钟，那是全能收进来，对吧？但是好像就没有这个必要，对不对，那在这这种情况下，我其实应该是整体这个时间给推移，大家想想是不是就相当于整体时间往后推移一下，就可以把这个乱序的数据全能处理了呢？
09:13
啊，所以接下来给大家提出一个处理的方式，那是什么呢？那就是我可以引入一个整体的时间的延迟机制，就当前我判断这个系统的这个事件时间，对吧？系之前我的判断方式是来了什么时间戳的时间，我就认为这个时间到了，到了哪里了，而现在我呢，我不要直接这么来做，我相当于是要让这个时间滞后一点，稍微的迟一点，言下之意就是什么呢？五秒的这个时间出来了，我现在的时间不要认为它已经进行到五秒钟了，比方说我可以认为它只进行到现在的时间，只进行到两秒钟。如果说现在时间只进行到两秒钟的话，那意思是什么呢？就是两秒钟之前的数据该到的都到齐了啊，如果有两秒钟的窗口你该关可以关了，但是呢啊，三秒四秒的数据还有可能来，对吧，那现在你不要关五秒钟的窗口，五秒钟窗口没到点呢，现在时间只只到了二，然后这样的话，我是不是后面就可以二三来了之后可以继续处理了啊，所以这个其实就相当于是给我们整个的时间引入了一个延迟机制，这个延迟机制。
10:32
大家会看到啊，就是说这个乱序数据会让这个窗口计算结果不准确，对吧？为了让它能够更准确的计算，那么我们就要引入一个延迟机制，这个延迟机制就叫做water mark，在flink的系统设计里边就叫做water mark啊，它的字面翻译有时候会翻译成水位线，有时候会翻译成水印，不管怎么样，大家记得它是一个mark mark就是一个标记嘛，对吧？啊，那这个标记它主要是指是什么呢？它就是用来指示当前的事件时间。
11:05
啊，所以大家注意啊，这里边有一个概念，就是说这这是说什么呢？是watermark是一种衡量even time进展的机制，它用来可以干什么呢？可以设定一个延迟触发，就是相当于我们的那个事件时间已经来了，对吧，这个数据的那个事件时间时间戳已经来了，但是呢，我要让他在这个基础上延迟一段时间，再去触发相关的那个，比方说窗口关闭的操作，或者说我们想做的一些跟时间相关的操作。这个这个含义，它其实底层来讲就是把我们整个的时间全变慢了一点啊，啊所以说这个有一个类比，就是说什么呢？就是像这个赶车对吧？啊，大家看你这每一个窗口，你说八点到九点，九点到十点，对吧，就相当于我们那个班车一样，比方说一个班车，这个班车就是九点发，然后下一个班车是十点发，那这种情况下，我们赶这个班车的时候，往往会出现什么情况呢？哎呀，要等的人迟到了对吧？哎，本来要坐这个班车，但是呢，姗姗来迟，路上堵车了赶不上，那怎么办呢？啊，如果说是大家这个我们一个班的同学，大家包包一个车出去这个春游秋游的话，那肯定我们是要等一下的，对吧？哎，所以一般情况我们的做法是什么呢？就是直接等待对吧，比方说我我我等待呃一个时间，呃等等个十分钟，然后把该来的是人，来的人，延迟的人都都等到。这种操作方式有点像什。
12:36
呢，就有点像我们之前说的processing time那个前提下，我直接在那等着，对吧？Processing time处理时间我设置的是九点就还是九点，但是呢，我给你等上一分钟，等上十分钟，这是这种方式，那我们现在waterma的这个机制是什么呢？哎，这是相当于我直接就告诉司机师傅，哎，我们现在的这个时间，这个事件时间，你现在本身就没有表，对吧？因为你如果有表的话，这就相当于有processing time了嘛，我们现在这个时间按照按照这个按照什么来判断呢？我们就按照每一个人来的时候，他自己带着的那个时间戳来判断，对吧？啊，那那就是，然后接下来我们就是什么呢？就是每一个人来的时候身上带着一个时，就是他自己要赶的那一班车的，呃，就是类似这样的一个时间戳，对吧，大家可以认为这样，所以呢，我我等就是来的时候上我这班车的，当然带着时间戳就都应该是呃这个。
13:36
九点钟这班车对吧，九点钟这个时间，但是我这些人来了之后呢，我不认为当前的时间已经到九点钟了，我怎么样呢，我多等一会儿，我要等到。要上09:10那班车的人他们来的时候，我才发九点钟的这个这趟车，诶大家想想是不是这样一个等待的机制啊，对吧？啊就这样等待，我认为下一班赶下一班车的人啊，这个都已经来了，那我认为你你上一班车再堵车对吧，你这个十分钟我应该已经把你等进来了啊，所以说这个时候我就直接发车不等了，所以这其实这样的一个延迟机制，他也可以认为是一个延迟发车的机制，对吧？但是跟我们想的那样，我就直接坐这儿等，这还是不太一样的，或者大家可以用另外一种方式来理解，就是什么呢？就是司机师傅他是有个表的，但是这个表呢，我们现在让他统一调慢，就waterma的含义是什么呢？它的这个延迟指的是直接把表就调慢了，也就是说司机师傅那边看的时候还是九点钟准时发车，但是呢，诶我们因为有这个乱序的数据，我直接提前偷偷就把他的这个时间给他。
14:49
拨慢了十分钟，那大家想他看着表去准时九点发车的时候，是不是相当于我就等了十分钟啊，对吧，就有点像这个哈，那为什么我能把它这个表播慢呢？就是因为我引入了一个water mark，这个water是我们现在的时间，而这个water mark它的机制是什么呢？就应该是比哎当前可能最大的那个时间戳，我要比它调慢一点，对吧，比当前的这个时间要调慢一点，因为大家想到我如果已经接收到五秒的数据了，那其实事件发生当前肯定已经到五秒以后了，对吧？如果不考虑我这个传输延迟的话，那肯定时间已经到五秒以后了，所以这个时候你其实如果把它调慢的话，就是一个延迟等待的过程。
15:36
好，这是关于这个watermark的概念啊，然后这里边给大家说再说一下这个一些具体的概念，就是说那个watermark，我们我们发现遇到这样一个water之后，它主要是用来表示什么呢？它主要是用来表示，如果说我们看到一个water，它是个标记嘛，一个water它它是五对吧？它表示什么呢？它表示当前的事件时间是五，然后也就表示五秒之前，就是他时间戳小于这个数的所有的数据都已经到达了。
16:10
那言下之意就是说，假如你有五秒的窗口结束时间是五秒的窗口，对吧，那你就可以关闭了，所以大家看到这个看如音斗啊，时间窗口的关闭操作都是由water mark去触发的，哎，所以现在就是说我们已经不用这个本身数据自己带着的那个呃，时间戳去出发我们的窗口操作了，而是用watermark来出发这个watermark的这个有有同学可能就想到，那你这个watermark这相当于什么？不就是还是引入了一个延迟，然后来保证我们最后的结果正确吗？啊，确实是的，这就像我们之前讲的这个luda架构，大家还记得吗？流处理发展变化的过程当中，第二代架构怎么做的，为了要解决结果正确性，处理乱序数据的这个问题，它是怎么做的呢？啊，为了还要平衡快速性，对吧，它就是很快的先输出一个近似正确的结果，用一个实时的流处理系统输出一个快速的正确的近似正确的结果。
17:10
然后呢，呃，再去用一套批处理系统，然后我攒这个数据等待，对吧，等所有数据都到齐了之后，然后我输出一个最终准确的结果，最后再结合起来，而我们现在watermark这个机制，这就相当于什么呢？我可以去让程序自己来平衡，你到底是要快还是要最后结果正确啊，就是说你如果要结果正确的话，那没关系啊，你water mark这这边你不是要拨慢那个表吗？你把它多拨慢一点对吧，你给它拨慢一个小时，那绝对该来的数都来了，对吧？啊，但是一般实际情况不会这么去干，对吧？他那个延迟就太高了啊，那你如果想让它这个，呃，就是实时性更好，延迟更小一点的话啊，那你可以把这个waterm延迟的就调小啊，你就调成50毫秒对吧，调成十毫秒，甚至你设成零，大家想设成零就相当于什么，设成零就相当于是我来了什么样的数据，就相当于我们这种机制，对吧，你来了什么样的数据，我就直接按照这个数据的。
18:10
这个时间戳就认为现在时间进展到哪里了，这就相当于是最快速的一个输出，对吧，实时性最强，就相当于是这种方式了，当然它跟那个直接用processing time还是略有区别，因为processing的话就没有考虑我们本身数据网络传输的延迟，对吧？这里边我们还是考虑到了数据网络传输的延迟的，是这个数据到了之后我就马上去出发，不考虑乱续是这种情形。啊啊，那那所以这里边就是我们会发现watermark可以让我们自己来平衡这两样了，你如果要让它足够快的话，那可能它的正确性就会受到影响，对吧，正确性就会缺失，那你如果要更快的话，你用processing time，那那正确性就更更保证不了了，对吧？网络延迟那个的数据也会丢掉啊，那另外还有就是说，你如果要想保证它正确的话，那你就没那么快，对吧，你就得设置的这个稍微的大一点，这就是watermark的含义。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（42/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

042.尚硅谷_Flink-Watermark概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐