文章/答案/技术大牛

发布

首页视频146_第十一章_窗口TopN

146_第十一章_窗口TopN

2022-12-022022-12-02 16:02:30播放45

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/146_第十一章_窗口TopN.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
前面我们已经介绍了在实际应用过程当中一个非常经典的案例，那就是top n这样的一个聚合统计，呃，具体的实现过程呢，我们是使用普通的分组聚合，先把想要排序的字段聚合出来，一个count值先聚合出来，然后接下来呢，使用一个over窗口统计一个roll number，然后接下来做一个筛选，啊，那所以这种方式呢，我们把它叫做普通套盆，那主要就是对比我们在流处理里边比较经典的窗口操作而言的，除了普通套盆之外，另外还有一种套盆的操作，那就是窗口套。其实整体来讲啊，有了普通top n的基础窗口，Top n就非常容易理解了，就相当于是我们之前先进行统计的时候呢，是直接针对所有的数据做了一个分组统计嘛，呃，聚合出了一个抗值，那现在呢，我们就要针对每一个窗口去做一个统计，统计出对应的抗值，然后接下来的排序，我们提取套本也是只针对当前窗口内有效，哎，所以就相当于是把这个窗口聚合加进来了，现在应该是一个窗口聚合和over开窗聚合的一个结合。
01:15
啊，所以接下来我们可以直接在之前的这个代码的基础上啊，再去实现一个窗口套喷聚合的一个案例啊，所以我们为了看得更清楚一点，还是去重新创建一个SC的object，现在我们叫做window top n啊，我们叫top n window example。还是没方法，先写在这儿，哎，那整个的处理流程我们可以先把这边照搬过来，整体来说其实都是差不多的。先copy过来，然后接下来呢？啊，这里涉及到一个，如果说我们想要开窗的话，诶，那统计的这个数据可能时间戳就得有所要求了啊，因为如果说这个时间戳离得很近的话，都在一个窗口内，我们最后的输出可能就看不到一些效果啊，所以呢，这里的测试数据啊，我们就不要用DDL直接去读取这个外部的文本文件了，我们还是用之前这个窗口测试这里的这个数据吗？诶，当时我们不是使用了一些比较好的这些测试数据吗？我们就直接读取一个data stream读取数据流，然后接下来把它转换成一张表，而且既然是涉及到了窗口，比方说我们统计每个小时作为一个窗口，统计这个滚动之间窗口内访问量最大的两个用户，也就是说最活跃的前两个用户，哎，那如果是这样一个需求的话，我们就按照这个时间啊，先把这个测试数据都定义好，这里就是前半个小时哎，到第一个小时到第二个小时的所有的数据都有。
02:44
接下来我们把这个先copy过来。它就可以取代我们前面创建表的这个过程。好，把这个引入啊，那当然了，如果是这种处理流的方式的话，前面我们要把这个下划线还是引进来啊，啊，前面我们先创建出一个stream，一个data stream，注意还得去提取时间戳，生成water mark，这样的话，在后面我们就转换成表的时候，直接指定当前的时间属性字段就可以了。
03:10
然后接下来的查询转换，我们的这个需求呢，也是套N，只不过呢，现在加入了窗口的操作，是一个窗口套，我们是选取每小时内活跃度最大的前两个用户啊，所以首先接下来呢，我们要做一个窗口的聚合统计。就不是简单的一个分组统计了，我们就是要统计每一个一小时的滚动窗口内所有用户，每一个用户他访问量的这个抗值。所以我们发现其实这个也非常简单啊，我们要的还是UID以及count URL，我们把它重命名为CT，接下来from，哎，那就不是直接从even table里边去提取数据了，而是要去开窗，利用窗口表示函数，把它做一个扩展啊，那这种方式的话，我们还是啊，就完整的把这个重新做一个书写吧。
04:06
我们可以直接用这种换行的方式啊，看得更加的清晰一点，接下来我们可以直接select。现在我们要的是UID，这是当前用户的基本信息啊，另外呢，Count URL as CT这个都是需要的，除此之外我们应该会想到啊，当前我们是要做这个窗口的聚合统计，然后经过这个窗口表值函数扩展之后呢，表里面字段其实还有窗口的信息，那窗口的信息我们后边做这个套提取的时候重不重要呢？是不是也要传进去呢？当然是重要的，因为后边我们提取套盆并不是针对所有的这个数据啊，按照这个count值全部排序提取前两名，而是还要根据窗口去做一个划分，只提取当前窗口内的最大的前两名啊，所以接下来我们窗口的信息也非常的重要，那我们干脆就把这个Windows start和window and都拿出来吧。
05:04
Windows start。Window and，这就是我们想要提取的字段，然后接下来那就是from。后边我们跟着的应该是一个啊，窗口表值函数这样的一个扩展啊，所以是table。括号里边当前我们调用的就是滚动窗口，那就是一个函数弹。里边需要传入三个参数。首先是。需要去扩展的这个原始的表，我们现在扩展的这个表就是even table嘛。当然，如果说想要去使用这个e table的话，呃，现在我们并没有在这个环境里面注册啊，所以还是得先去注册一下create temp review。把这个event table的对象实例传进来，接下来我们就可以在C当中直接使用了，啊把它传进来，这是第一个参数，第二个参数呢，那是一个时间属性字段。Script，然后里边传入的，注意时间属性字段，现在我们提取的是ET啊，就是TS还是一个长整型的ET才是时间属性字段。
06:08
接下来还应该有一个当前窗口的长度，那是一个时间间隔了，In tval。直接给一个一小时one hour，这就是我们对于当前窗口的定义，然后啊，当前这个窗口已经扩展出来了，那后边还需要有一个group做一个分组。我们现在分组的字段啊，那应该要有UID，另外呢，还必须要有窗口的相关信息，哎，那所以就是Windows start和window and跟在后边就可以了，这就是我们先做了一个窗口的聚合操作，哎，所以这个如果要区分一下的话，我们可以把它叫做URL count。Window table，然后接下来。可以把它也注册一下URL window。这个叫做URL count window table，同样后边如果我们想要去选取的时候呢，当然就是from这张表去做提取了，后边做这个TOP2提取的时候，规则还是一样，我们想要提取出当前，其实就是当前所有的信息嘛，我们把当前所有基本的字段，以及聚合扩展出来的这个row number，所有的都要提取出来，所以这里我们干脆直接啊。
07:20
Select芯就完了，后边from啊，From这里是一个子查询，这个子查询呢，那就是要从我们前面聚合得到的这张表里边还要再扩展出一个number，这里的number当然还是基于CNT这个count值，要做一个order by做一个降序的排列，然后我们提取前两名，这个都没有问题，关键在于我们这张表里的所有数据呢，我们想想它长得应该什么样呢？诶，当前它所有的数据应该是UID啊，当前一个用户。然后它的一个count值，比方说爱丽丝有五次访问，后边还有窗口的信息，在哪个窗口内它是有的，那比方说我们这个，呃，零到一小时，第一个小时我们这个单位是小时了啊啊，然后后面可能第一个小时内还有B。
08:08
它统计出来是三次，也是零到一这个窗口内，那后面呢，呃，可能在第二个窗口内，A访问了两次一到二。所以最后啊，我们这个所有的count值不能全放在一起去做排序，这就相当于把不同窗口内的数据合在一起了嘛，这个没有意义，我们要根据不同的窗口去进行一个划分，进行一个分组，得到的才是每个窗口内的套盆啊，所以接下来我们就应该在前面追加一个。那要分组当然就是BY，我们现在要去分组的字段，那当然就是window的信息了，Window start和window and，那起始和结束时间当然就完整的定义了这个窗口，这就绝对唯一。所以这个过程我们看到啊，就是套用了普通套宽的这个模式，这个模板还是一样的啊，所以我们看里边的这个子查询，就是基于之前我们已经得到的这个URL count window table啊，在里边，然后又做了一个开窗函数的聚合，针对每一个数据，哎，我们按照窗口分组，然后呢，根据它的count值做一个排列降序，排列统计出它对应的那个行号，这个名次就有了，接下来呢，选取每个窗口里边的前两名提取出来就可以了。
09:30
所以这个过程啊，有了前面做基础，其实实现是非常非常容易的。哎，那同样后边我们得到的这个结果表呢，接下来就可以转换成流打印输出，这里还有另外一个问题就是诶，我们得到的这个结果表是tolock stream还是to data stream就可以了呢。啊，这里就涉及到到底我们最后啊做的这一个TOP2的聚合统计，有没有涉及到更新操作，哎，那其实跟之前我们考虑这个窗口聚合的时候一样啊，因为窗口聚合它针对每一个窗口的结果，比方说当前这个零到一啊，第一小时内啊，窗口的起始点和结束点是这样的，那针对这一个窗口呢，统计出来的结果，比方说A5B3。
10:18
C6。针对这样的结果，很显然他们就只会输出一次，所以URL count window table这个表里边的数据啊，都是追加进去，所以它是一个追加查询，然后接下来我们基于这一个得到的这个追加查询的表啊，再去做一个套牌聚合的时候，诶，那得到前两名是不是也是不再更改的呢？诶当然是不再更改的，因为同一个窗口的数据它都是一次性输出的了，一次性输出，当然它的套牌也就是固定的一次性提取出来。输出到我们最终的结果表里就行，所以它其实是追加上去啊，那这里我们就不需要to turn log stream，直接to data stream就可以了。
11:01
所以接下来我们可以直接运行一下，看看它的效果是什么样。现在我们的数据也比较少啊，只有上面的这几条数据，我们看一下哦，果然得到的就都是加I，都是追加，首先我们看到啊，诶从零到一一小时这前两条数据，这就是第一小时内的TOP2，我们看到排名第一的那是Alice，访问了三次，排名第二的是Bob啊，那访问了一次，所以我们看在第一小时内统计出来的数据，它就只count输出一次，然后TOP2当然也就只输出一次，没有更新。那同样第二小时内容统计出来，凯瑞有两次访问排名第一，Bob有一次访问排名第二，那跟前面第一小时的数据就会有所不同了，他也不会去覆盖更新之前的结果，而是在后边直接追加输出就可以了。这就是关于窗口套的具体实现。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（146/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

146_第十一章_窗口TopN

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐