文章/答案/技术大牛

发布

首页视频065_第六章_窗口的概念

065_第六章_窗口的概念

2022-12-022022-12-02 16:02:30播放38

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/065_第六章_窗口的概念.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经了解了flink当中水位线的概念、原理和传递规则，而且我们知道了在代码当中怎么样去生成水位线啊，但是我们会发现啊，前面所写的代码都只是创建了水位线的生成策略，我们并没有办法看到它最终的效果。那水位线最终是用来干什么的呢？啊，当然是要控制我们当前的事件时间，那就是跟事件时间有关的一些操作就会通过水位线的推进来体现出来，那这里边最典型最经典的一个应用当然就是窗口了，时间窗口，所以接下来呢，我们要介绍的就是窗口这一部分内容。其实啊，窗口这个概念我们并不陌生，而且它其实是我们在做大数据处理的时候非常重要的一种手段啊，我们前面介绍的这个基本API大家会发现啊，Map flat map基本转换算子，还有像reduce这样的聚合算子，它其实做的操作是什么呢？都是每来一个数据就做一次转换，做一次聚合，做一个计算，然后就会输出对应的一个结果，每来一个就做一次计算，输出一个结果。
01:12
那这样的话，假如说啊，我们统计就是word count吧，我们统计当前的个数。数据无休无止的来，对于无界流而言，我们最终统计的其实就是所有数据的每一个word对应的count值，它出现的频次，哎，那这就相当于是全量数据统计嘛，一个历史数据的统计。但是在真实的应用场景里边呢？我们最关心的往往并不是整个无限流的历史数据。当然了，有些指标可能我们要统计所有的历史数据啊，但是更多场景下，我们关心的是最近一段时间发生的所有事件，收集到的所有数据啊，比如说我们统计PVUV啊，那往往可能我们想要看的啊，是像日活月活这样的一些信息，我们统计的是每一天用户的访问量，每个月用户的访问量下的订单量，他们都是按照一段时间去进行数据的收集和处理的，哎，所以我们看到这种处理方式呢，就相当于在无界流上打开了一个窗口，截取了一段有限的数据进行聚合分析统计。
02:25
这就是我们所说的窗口操作。所以简单来讲，对于flink来说，它本身要处理的是无界流，那窗口呢，其实就是让我们把无界流转换成某种意义上的有界流去进行具体分析的一种手段啊，那所以在link当中窗口API啊，其实非常丰富的窗口是一个非常重要的数据流处理的操作。所以接下来呢，我们来详细的讲解一下flink当中窗口到底是什么啊，其实我们会觉得这个窗口太简单了啊，其他的一些大数据处理工具，甚至像skyla这个语言里边啊，我们进行集合处理操作的时候，都有类似于窗口的概念。
03:09
简单来说，诶，对于我们这里的一组数据，那其实就是打开一个窗口，就像一个框一样，把一部分数据框在里边，这就是属于某一个窗口，比如说啊，我们按照这个这里边的数字啊，数据里边带的数字都是一个时间戳单位，比如说就是秒，那么我们零到十秒开一个窗口，诶这样的话，只要在十秒之前的数据就都分配到了这个窗口内，那十到20秒下一个窗口，诶那么接下来后边的数据就都收到了这个窗口内，再接下来当然就是20~30秒，哎，我们看到这其实就是每隔十秒开一个窗口嘛，数据就分别分配到了不同的窗口当中。这里我们发现就是一般定义窗口的时候就是说的啊，都是左闭右开，包含零就不包含十，这样的话下一个窗口就可以包含十了，每一个数据它只会包含在一个窗口当中，当然了在有些场景下，窗口也可以有重叠的，那就是我们后面会讲到滑动窗口。
04:11
他每一次可能都移动的不是整个我们窗口的长度，每一次移动一部分，那他们之间就会有重叠部分了。这样理解确实看起来非常的简单，我们就把窗口当成一个框就可以了，但是呢，对于事件时间与意向乱序数据出现的时候，我们就会发现这样处理就会有问题了，诶，我们看到啊，当前零到十秒这个窗口当中收集到的确实都是十秒之前的数据，但是呢。十到20秒，这个窗口里边就有一个九秒钟的数据跑到了这里，这就是我们说的乱序流，里边有些数据它会迟到，那如果要是迟到数据，他所属于的那个窗口已经关闭了，他就只好落到下一个窗口里面去进行统计了，这就会导致我们的统计结果出现偏差，不够准确。
05:03
怎么解决这个问题呢？诶，那我们自然想到了，之前不是说了这个乱序流里边我们应该设置一个延迟时间吗？诶，那就相当于我们要多等一会儿延迟发车，你前面那个窗口不要那么快的关闭，这样的话我们就变成了比方说在这个流里边，我们看到最大乱序程度差不多是两秒钟啊，11秒后面有九秒的数据，那我们就设置一个两秒钟的延迟，这样的话那就需要等到12秒这个数据来的时候。Water才会进展到十。这个时候。视线时间到十秒了，那么我们就关闭零到十秒的这个窗口。这个时候我们看到，诶，没有问题，那所有的十秒之前的数据都收进来了，但是又涉及到另外一个问题，就是既然数据是乱序，那有迟到的数据，那就有在他之前已经到来的属于下一个窗口的数据啊，比如说这里的十一十二。他们本来应该属于十到20秒窗口。
06:03
但是现在如果我们多等一会儿的话，那他们岂不是就要被收到零到十秒这个窗口里边来了吗？怎么解决这个问题呢？其实我们联系一下平常赶班车的这种场景，我们就会想到啊，一般情况我们去赶班车的时候，哎，那当然就是有哪一辆车，哎，我们既然来了之后啊，这辆车停在那里，那我们就直接上就完了嘛，一般都是一班车发走了之后，才会有下一班车开始开放啊，让人上去，但是我们会想到就是如果说我们现在限定了某一个人，某一个数据，他只能上下一班车，不能上当前的这一班车。诶，那怎么样呢？那就当前这一班车尽管还没发，你就不要上这班车嘛，你就直接等着，或者说下一班车有可能已经开门了，你就直接上下一班车不就完了吗。诶，所以我们想到了啊，在真正的处理场景里边，窗口并不是说零到十秒和十到20秒的窗口只能有一个，他们就像两班车一样，完全可以同时的停在这里，等待对应的人上车，所以呢，诶，我们在这里边不应该把这个窗口看成一个框，我们可以把它看成一个班车，或者说看成一个桶，收集对应时间戳数据的桶。
07:19
这样的话，他们就可以同时存在，同时放在这里了。那接下来就是我们判断当前的数据时间戳符合某个桶的收集范围的话，那就直接把它扔到对应的桶里面去，如果有提前来了的数据，诶，那就把它扔到对应的下一班车，也就是下一个桶里边就可以了嘛，啊那至于我们当前事件进行进展的时候呢，要关闭哪个窗口，那就把对应的那个桶里边的所有数据拿出来，去进行一个计算处理，输出结果就可以了。啊，所以接下来我们可以按照这个例子啊，再完整的梳理一下，到底应该怎么做窗口的计算，哎，那就是首先二这个数据来了，哎，那我们当前就把它扔到零到十秒的这个窗口里面来，这个桶里面来，五来了啊，扔到这里来，后边9789，所有数据来了之后，都会放到当前的第一个窗口里面来，然后接下来11来了，11来了怎么办呢？诶，十一来的时候我们知道啊，当前假如后边有water mark的话，周期性生成了一个water的话，延迟两秒钟，当前的时间只进展到九，所以零到十秒这个窗口是不关的。
08:29
那11他也得放到对应的一个窗口里啊，它不能放到这个窗口，它要放到。十到20秒的这个窗口里来啊，就这几班车都等在这儿了，你该上哪个车上哪个车啊，同样后边九这个数据又来了，那同样接下来他还可以这迟到数据嘛，呃，那没关系，我们等着他呢，等的就是它，所以它直接进入到第一个窗口，零到十秒这个窗口来，接下来12又来了，12来了之后呢，同样它是属于下一班车的，它也要进入十到20秒这个窗口，12来了之后，现在的water。
09:03
我们延迟两秒钟water mark进展到了十，那我们发现遇到了十秒的water mark，那就要处理十秒钟要发生的对应的一些时间上的操作，那我们要干什么呢？当然就是关闭零到十秒的窗口，所以这个时候我们把这个桶里边收集到的所有数据拿出来做一个统计，计算输出结果。啊，当然了，做完操作之后，这个桶就可以直接关掉窗口，就可以关掉了，桶就可以销毁掉了，就可以回收了，诶那再接下来15来了之后，他进第二个窗口，14进第二个窗口20啊20我们知道前闭后开嘛，20是属于第三个窗口的，所以二十二十一他们又分别进入到了第三个窗口啊19是迟到数据，它同样进第二个窗口。这个时候呢，我们的最大时间戳只是21，当前的watermark只有19，所以第二个窗口还不关，等到22来了之后，他自己要进入到第三个窗口，而当前的时间戳最大时间戳是22，所以watermark就进展到了20，那这个时候就会触发第二个窗口的处理计算，把所有的数据收集齐了，计算得到结果传递到下游，然后这个窗口就可以关闭销毁了。
10:21
那接下来就是第三个窗口计算，所以这就是整个窗口计算的完整过程。我们这里需要明确的一点就是窗口并不是。有了零到十秒的窗口，就不能有十到20秒的窗口，他们完全可以同时存在，那数据呢，只要判断自己的时间戳他该属于哪个窗口，就进入到哪个桶里边去进行计算就可以了啊，那对应的就是窗口什么时候开，什么时候关呢？诶注意啊，这个窗口并不是一开始就都已经放在这里，没有必要这个浪费系统资源嘛，它是只有在属于自己时间范围内的那个数据来了之后，有第一个数据来了之后，才会触发当前窗口的创建。
11:08
好，然后接下来就是收集数据，那窗口什么时候关闭呢？那就是我们说的，当水位线进展到了当前窗口的结束时间的时候，那就会触发当前窗口的计算，把收集齐的数据进行一个统计，计算得到结果输出到下游，然后关闭当前的窗口。所以本质上来讲，窗口的触发计算和窗口最后的关闭，这是两个行为啊，但是一般情况下我们可以把它等同对待啊，因为我们知道就是到了结束时间点的时候做这个操作嘛，它是有先后顺序的啊，先做计算，最后再关闭，后面我们会讲到，其实这两个行为也可以完全分开，我们讲到的时候会给大家再重复的介绍这些概念。这就是关于窗口操作的基本概念。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（65/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

065_第六章_窗口的概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐