文章/答案/技术大牛

发布

首页视频143_第十一章_窗口聚合

143_第十一章_窗口聚合

2022-12-022022-12-02 16:02:30播放36

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/143_第十一章_窗口聚合.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
前面我们介绍的分组聚合，这是C口当中非常经典的聚合操作，那接下来呢，我们要介绍的就是flink流处理当中的聚合特色了，那就是所谓的窗口聚合啊，我们知道本身流处理里边要面对的是无穷无尽的数据流啊，那所以对于这种无界流，如果说想要去进行统计计算的话，最好就是把它划分成有界的数据集，这就是我们所说的啊，窗口去进行一个分统操作，这就是窗口聚合的一个基本思路。之前我们在上一节当中呢，介绍了窗口的基本定义方式，这只相当于是窗口的分配器啊，那接下来我们要介绍的就是到底怎么样针对窗口收集到的所有数据去进行一个统计计算啊，这就是我们所说的类似于窗口函数的一个功能啊。那在C口当中呢，窗口的计算就是通过窗口聚合这样一种方式来进行实现，其实这种聚合方式呢，跟前面我们提到的这个分组聚合非常的类似，它也是按照窗口把数据进行分组的这样一个思路啊，就跟传统一开始啊，我们所说的那种分组窗口的思路是非常类似的，只不过现在呢，我们使用的是窗口表值函数，窗口表值函数已经针对当前原始的数据扩展出了新的列，哎，我们说扩展出了当前窗口的window start window and，还有window type3个对应的属性字段，所以接下来我们针对这张表里面的数据呢，就完全可以按照窗口的start和end作为一个分组的K，然后结合，比方说啊，我们按照user去做一个分组，哎，那把它们作为一个组合，K1分组，然后接下来去调用对应的那些聚合函数。
01:48
不就完事了吗？哎，所以我们发现啊，C口当中直接给我们提供的那些聚合函数到窗口聚合这里完全好使，只要我们使用窗口表值函数把这个表扩展出对应的窗口字段就可以了啊，所以本质上来讲，我们可以认为窗口聚合呢，还是一种分组聚合，只不过在分组的过程当中需要使用扩展出的窗口字段也作为分组的K。
02:14
所以接下来我们可以看一下这个在CQ当中啊，代码当中到底怎么去写这个形式的话，那就是select，提取我们想要的字段，比如说我们想要user，或者前面我们还提到了啊，想要选取当前窗口的结束时间window end作为一个信息啊，那像之前我们那个老版本的分组窗口的使用呢，这里要调一个函数，现在也不用了，因为我们直接扩展出来有字段嘛，Window and选取就可以了。另外呢，如果说针对数据想要做一个聚合统计的话，直接调用。对应的聚合函数，比方说count URL来把每一个用户在当前窗口范围内的所有访问的URL做一个频次的统计，所以我们知道这个统计出来不就是之前我们所说的那个URL view count吗？好像就是每个用户所访问的这个URL的个数啊，然后from table，注意接下来的这个table呢，这就是一个窗口表函数啊，一个表函数的写法，我们现在要获取到的是一个新的表，这个表是基于原先的even的table做了一个窗口的扩展得到的一个新的表啊，所以我们看到啊，直接这个table里边传入的就是这个窗口表值函数这个T啊，里边传入的参数当然就是对应的这个窗口的定义了，滚动窗口的定义啊，一个小时以TS作为时间属性字段，然后基于even table做了一个扩展。
03:41
然后后边的关键在于要写一个group by group by，当前我们是按照用户去做分组，另外还要加上窗口的信息，这里窗口的信息就是Windows start和window and啊，因为这里需要注意的是这个Windows start window and都不能少，为什么呢？因为现在我们不光有滚动和滑动窗口。
04:04
我们现在还有累积窗口，哎，如果是累积窗口的话，这个就有可能会出现它的Windows start是完全一样的，哎，它就是这个只有window and不停的在朝后推进，哎，所以在这个累积窗口的情况下，你如果只给一个window star，那肯定就不对了，所以我们也不排除啊，有些特殊情况，有可能这个window and也会出现相同的情况，哎，那所以这里我们就要把Windows start和window and都要放在这里作为分组K。所以现在有了这一部分知识，我们就可以直接在代码里边对于窗口的操作来做一个结合的测试了，啊，前面我们已经定义了基本的时间属性字段，那接下来我们就看看窗口到底应该怎么用了。所以我们要。测试窗口，哎，那别的像这个滚动滑动窗口都已经非常熟悉了，干脆我们现在就测一个新的吧，测试一个累积窗口。那我们要统计的东西呢？啊，其实跟之前想到的还是一样，我们就统计每一个用户在每一个窗口内所有访问URL的频次，啊，就是我们这里的URL count这三个字段啊，啊选取user window and和当前URL的一个count值，把它选取出来，只不过现在我们是累积窗口的话，诶，那我们得定义一个时间范围了。
05:20
比如说我们可以统计，哎，当前我们统计的这个时间周期是一个小时，一个小时统计一次当前所有的这个URL的访问次数，而这个累积步长呢，累计步长简单一点，半个小时累计一次，也就是说呢，我们第一次输出的应该是当前这一小时之内，前半个小时收集到的所有的数据的频次count值，然后第二次呢，A，那就扩展到一个小时了。它是一个累积增加的过程，所以接下来我们就可以在代码里边去使用窗口表值函数，对于even table去做一个扩展，然后针对这个累积窗口去做一个窗口聚合啊，那当然了，如果说我们在CQ里边直接写CQ的话，那之前的这个table对象实例，我们还要在表环境里边做一个注册啊，那所以这个table en先要去注册的时候，其实就是create temporary嘛，直接这样去注册就可以。
06:16
这里就叫做event table。后边需要传入event table的对象实例啊，然后接下来我们就写这句CQ了，那可以直接定义一个我最后的result table，经过查询转换之后得到的就是一个result table啊，这里调用的是一个table en的CQ query方法，好，那那这里如果说我们想要看的更清楚一点的话啊，可以直接用这个三引号，然后做一个换行这样的一个表述，这个看的会更加的清晰啊，在tla里边我们可以直接用这种方式，比如说这里我们直接select。要选取的字段选取什么呢？哎，我们当前需要user啊，当前我们定义的这个已经是重命名成了UID，那我们就把它叫做UID吧。
07:01
UID，然后另外还需要有window and。Window and，本来扩展之后就有这个字段嘛，所以就叫window and啊，那如果说我们还想重命名一下的话，可以叫做as and t，这个也是没问题的，最后还有一个字段，那就是count值了，Count的话，我们直接调用count这个聚合函数，针对URL做一个技术统计啊，那可以SCT重命名一下。然后接下来啊，那当然我们就可以直接from从哪张表里呢？哎，那这个表是使用窗口表值函数扩展出来的这张表啊，这个表的话，我们还是使用这个大写啊，看的清楚一点吧。诶，这样一个table，然后里边需要去调用的是cuumulate这样一个窗口函数，然后里边就是对于一个累积窗口的具体定义了啊，我们知道它里边有这样的几个参数啊，第一个参数是一个table。就是我们当前所定义出来的这个数据啊，Even table数据来源，然后除了even table之外，第二个参数呢，是一个script ts啊，就是当前这个时间属性字段包装在一个script里边。
08:15
Script里边传入TS。接下来啊，下边的参数当然就是累计窗口相关的那些信息了，我们要定义的累计窗口是，诶，整个统计都周期是一小时，然后呢，累积的步长是半个小时，哎，那所以先写注意啊，这里边跟滑动窗口一样，都是先写比较短的那个步长，最后再写长的那个窗口长度或者是周期啊。所以接下来我们应该是因。Interval，首先来一个30分钟的累积步长minute，然后下一个参数是INTERVAL1小时，那就直接1HOUR，哎，这样的话当前这个累积窗口就定义好了，那最后呢啊，聚合操作不要忘记还要有一个group by指定我们当前分组的key，那当前的分组的话，User啊呃，我们现在是把它重命名叫做了UID啊，按照用户要做一个分组，另外还有就是窗口的信息window start和。
09:19
Window and这两个都要作为分组的K写在这里，这就是我们完整的累积窗口进行聚合的CQ啊，那当然了，前面如果说我们希望让这个关键字啊风格一致一点，都把它改成大写也是没有问题的啊，包括这个as，还有这个count函数都可以改成大写。这样的话看起来会更加的清楚一些，包括from，这样的话，这个CQ就写完了，得到了一个结果表result table，那这样一个result table呢，如果说想要看到它里边的结果，我们想要把它在控制台做一个打印输出，那需要转换成U。哎，最简单的方式就是转换成流打印输出，这种转换的话，调用的当然就是table env的to，那我们到底是to data stream还是to change log stream呢？哎，这里我们会想到啊，既然做了这个聚合操作，那很有可能是做了这个结果的更新的，但事实上我们知道，针对一个窗口而言，它里边输出的结果呢？那是每一个窗口统计的结果只会输出一次。
10:29
接下来呢，不会更新之前的结果，而是在后边追加新的窗口的结果，即使我们这里是累积窗口也是一样，因为我们想啊，第一个小时之内，那第一个窗口输出的时候，它其实是前半个小时的统计结果，那它的start是零，哎，那结束and呢，应该是30分钟。而第二次输出的时候呢，输出的是一个小时之内的完整的数据统计结果，那他的start是零，结束点应该是60 60分钟的时候啊，所以这根本就是不同的窗口，当然也就不会有更新操作，而是全部都是追加操作，所以这是一个追加查询，并不是更新查询，后面做打印输出的时候呢，就可以直接to data stream就可以了，把result table。
11:17
传输进来，然后做一个print打印。那最后呢，啊，因。要执行起来，因为我们当前是基于这个data stream啊进行的转换处理，所以en electcu执行起来，接下来我们可以运行一下，看一看得到的测试结果是什么样。好，这里还有一个问题就是呃，我们当前的这个数据呢，可能没有半小时一小时那么多的数据啊，所以啊，这个输出的数据可能就都只集中在前一小时之内了，所以我们看到啊，呃，这里统计了Alice丝第一个输出的window and，我们看是。00:30，也就是说前半个小时的时候啊，输出了一次，那我们看这里统计的爱ice丝的点击就有三次，然后呢啊，后面凯瑞点击有一次，Bob点击有两次，后面我们看到啊，这个数据在一小时统计的时候其实没有发生变化，因为这里边最大的这个时间的数据啊，只是105秒啊，那很显然这个没超过半个小时吧，所以我们可以把这个数据做一个调整测试一下啊，那我们可以直接用文档当中已经设计好的这些数据，那我们可以看到1000乘以1000，这表示的是秒数，那再乘以60呢，这就是分钟数了，哎，所以25分钟的，55分钟的啊，然后后边我们看啊，3600乘以1000，这就表示一小时嘛，一小时再加，哎，这种表示就看的会更加的清楚啊，到底属于哪个时间段的窗口看的一清二楚，所以可以把这个数据做一个更改。
12:48
好，然后接下来啊，那我们直接运行看一看现在的效果是什么样，这个就应该能够体现出累积的效果了，因为我们看到前面啊，这个前几条数据啊，在没有加这个3600乘以1000的之前的这四条数据，应该都是第一个小时之内的数据。
13:07
然后呢，啊，这个25分钟之前的这三条数据，这是前半个小时的数据，所以我们看到啊，首先输出的。前半个小时的数据，爱丽丝有两条访问，我们看到就是爱丽丝第一秒的数据和25分钟的数据，Bob呢，呃，有一条数据，这是第一秒钟访问的数据，这是第一次窗口输出，在30分钟的时候输出的，然后在一小时的时候呢，又会输出第二次，这个时候就新增了一条爱丽丝的数据，所以我们看爱丽丝的访问次数是在之前的基础上又加了一，变成三了，啊，那Bob没变，还是一，这就是累积窗口的特点。然后到第二个小时呢，哎，所有的数据就相当于清除了，重新开始计算，所以我们看到下面有三条数据啊，第二个小时里边Bob有一条，Carry有两条，在统计这个前半个小时的时候呢，只有Bob的这条数据，那carry的两条数据我们看到啊，都是在30分钟以后了，所以我们统计出来就是在两小时这个结束的时候，这个窗口里边carry有两条数据，Bob有一条数据，所以这就是累积窗口进行窗口聚合的一个完整测试。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（143/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

143_第十一章_窗口聚合

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐