文章/答案/技术大牛

发布

首页视频085_第七章_TopN（二）_使用KeyedProcessFunction（一）

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

2022-12-022022-12-02 16:02:30播放37

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/085_第七章_TopN（二）_使用KeyedProcessFunction（一）.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经使用process or function实现了top喷的需求，在这个实现过程中呢，我们会发现思路其实是非常简单粗暴的，诶，那就是不就是要统计每个时间窗口内所有URL活跃度的套喷吗？诶，那我干脆就直接开窗把所有数据都放进来，然后统计每个URL的count次数，接下来做一个排序，提取前几名就可以了啊，那整个这个过程就是所有数据先收集齐，然后再进行处理，直接用到了一个全窗口函数process or window方式。当然了，这个处理过程我们就会发现稍微的有点繁琐啊，就是本来这个数据都已经收集齐了，然后呢，我们再一个一个拿出来啊，统计一下到底有几个，接下来再做排序，再做提取，最后包装信息，打印输出。而且我们仔细一想就会发现，不光是代码实现的看起来很繁琐，实际我们整个程序在执行的过程当中呢，肯定效率也比较低，因为这就相当于是一个批处理嘛，我们说全窗口函数，它是让数据到来的时候先攒起来，攒够了之后等到窗口结束时间触发计算的时候才来调用这里的process方法，那很显然之前我们数据收集的过程都是一个等待的过程，这个效率就比较低了。
01:23
那怎么样能利用我们之前说的流处理的思路，来一个就处理一个，来一个就处理一个，提高处理效率呢？那当然我们就想到了，还是应该像之前URL view count这样啊，先做一个增量聚合，每来一个数据，我们就使用一个aggate function啊，增量句和函数，先把它的个数统计出来不就可以了吗？等到我们已经统计出了每个URL它的访问次数，再把每个时间窗口里边的数据都收集到一起，再去排个123名，然后输出我们最后的top就可以了。
02:01
所以呢，我们实现套其实还有另外一种思路，那就是在之前URL view count统计每一个URL在当前时间窗口内访问频次这样一个需求的基础上，再追加一步，同样可以实现这样的功能，而且这样有一个好处，就是说像前面我们做这个。全窗口函数收集所有数据去统计的过程呢，我们是做了一个WINDOW2啊，我们说WINDOW2，它本质上是把所有数据都分到了同一个分区，这相当于强制并行度变成一了，那所有数据没有办法并行计算，效率肯定也很低。而如果说像前面URL view胖子呢，我们自然就可以按照URL先做分组，先把它分到不同的分区里边去做并行计算，然后得到的结果我们再把它收集到一起，诶，这样的话很显然运行效率就会更高。所以接下来我们要实现套喷的思路，那就是可以把之前URL view count这里做的操作作为我们的第一步啊，就相当于我们第一步统计每个URL访问次数，这个就已经做完了，那接下来怎么办呢？哎，接下来其实我们就是要把得到的访问结果，哎，注意这里得到的访问结果我们已经包装成了URL view count。
03:21
那么这样一个样例类类型里边的数据是URL，还有count值，另外还有窗口的信息。那接下来呢，这些数据就要按照每个窗口里边的所有的UI count要统计在一起，按照count值进行排名，然后提取套盆啊，那所以接下来我们会知道，那应该是按照窗口再去做一个划分，分组之后呢，收集起所有的数据，还是同样的逻辑得到一个列表，我们把它做一个排序，然后提取就可以啊，最终可能我们还是包装信息做一个打印输出。
04:01
啊，所以接下来我们要做的这个事情，显然那就是在之前这一步的基础上，后边再做一个点KBY操作，那只不过现在K的就是window的信息了，我们可以k by Windows start或者window end，然后再接下来呢？啊，那当然后边我们就是在做一个收集当前窗口内所有数据，然后再做对应的排序处理的过程。这个处理的过程，我们到底应该怎么做呢？那我们可能会想到，诶，这个很简单啊，我们现在不是所有的数据都已经作为一个一个的URL view count。这样的一个数据结构啊，样例类的对象，然后一个一个输出了吗？诶，那我们就按照当前的这个窗口，把它所有的数据收起来不就行了吗？诶这里有一个问题就在于，比如说啊，我们这里边十秒钟一个窗口嘛，零到十秒钟的窗口。我们当然可以按照窗口信息进行一个分组，那比方说现在我们就来了一个零到十秒窗口内的数据，比如说这个URL对应的页面就是点杠后count，它被访问了五次，后面跟着的当然就是零和十，我这里直接用秒数来代表这个时间戳，那这样的话，这个数据来了之后，哎，那我们就直接把它排成零到十秒当中的第一名吗？
05:25
注意后边还有可能继续会来零到十秒钟这个窗口里边的统计数据啊，诶，那所以我们自然就还得等，那我们第二个如果来了之后来了一个点cut。它是三次，同样还是零到十秒这个窗口之内的数据，那接下来他就直接排第二名吗？我们现在可以把这个前两名都输出了吗？当然不能，因为接下来后面还有可能跟着零到十秒钟这个窗口内对应的数据啊，诶之前我们这个统计聚合，这是所有的URL都要统计出来，并没有个数的限制。
06:00
所以我们当前并没有一个预期说，诶，到底是什么时候就可以把当前所有的数据都收集齐。啊，那当然了，我们可能也就能想到啊，哎，那之前我们不是说了这个就是按照窗口时间去设置的吗？哎，那现在既然已经是零到十秒钟窗口的数据输出了，那现在时间就应该已经进展到十秒了。那既然是到十秒，这些数据不就都应该到齐了吗？诶，这个不好说，因为我们现在收集到的这个数据里边。接下来做的操作已经没有窗口的信息了，我们相当于已经不再开窗统计了，我们拿到的就是一个一个这样的URL的数据。那这些数据呢？我们只能通过它的Windows start window and去判断到底是属于哪个窗口。那我们来一个又来一个，诶，那其实根本没法判断它什么时候就可以全部都到齐，这就有点尴尬了，那我们到底等到什么时候为止呢？
07:01
哎，这里有一个小技巧，那就是我们可以设一个定时器。哎，我们之前说过有这样的timer定时器这样的操作，我们只要按照事件时间设置一个十秒钟之后的定时器，等到到了那个时间，那自然之前所有数据就都已经到齐了。诶，所以通过这样一个小的技巧，就实现了收集之前我们一个窗口输出的所有数据这样的一个目的，哎，那所以我们当年设置定时器，设置到什么时候呢？那其实就是十秒后边稍微过一点点就可以，比如说我们可以十秒后边加一毫秒。设置一个等待一毫秒的定时器，那这样的话，假如当前的事件时间已经进展到了十秒后边一毫秒，那么这个时候，当然之前我们零到十秒的所有的结果就都已经到齐了啊，所以通过这种方式我们就可以解决收集数据的问题。
08:04
所以接下来呢，我们可以利用这样一个示意图来想一想接下来我们的代码里面要做一个什么样的操作啊，那既然我们用到了定时器，那自然想到了当前只有kid process function里边能用定时器嘛，所以我们现在要用的当然就是一个key process function了。这里还有另外一个问题，就是我们使用kid process function里边要注册定时器，要等待当前所有的数据都收集齐了，然后再去排序输出前几名。那么在这个等待的过程当中，之前已经到来的所有数据我们应该放在哪里呢？这肯定不能丢掉嘛，我们现在的流处理是来一个就要处理一个，哎，那假如说我们是一直等到最后才处理的话，那之前数据肯定是要先保存起来的。哎，那所以我们自然想到了，最好是把它保存成一个列表，那这样一个列表的话。保存好了之后，再触发定时器的时候，直接把它做一个排序，提取前几名就可以了，这个列表呢，如果我们直接把它定义成本地变量，它会有一个问题，就是因为我们知道当前的flink任务其实都是可以并行执行的嘛，我们有多个并行的子任务。
09:17
所以我们在代码当中定义的一个算子，它实际的执行可能是在多个分区上去并行执行的，那他可能在多个分区上都要创建自己的一个对象。那么这里边如果我们定义一个本地变量的话，它其实是针对当前的分区有效的，也就是一个分区上有对应的这样的一个变量的实例。所以如果说我们这里边定义一个本地的list来保存我们当前的数据的话，那应该就是一个分区，一个list。而我们知道啊，现在做了K败，并不代表一个分区就是一个K，它跟K的对应关系又不是唯一的，那这样的话就有可能造成我们后边处理逻辑的混乱，而且你直接使用一个本地变量的话，Flink对它是没有容错机制的保证的，也就是说如果说呃，这个时候啊，出现故障，我们当前分区任务给挂掉了，恢复重启之后，那之前所有的数据其实是丢掉了啊，那这样的话当然是不合适。
10:21
那怎么办呢？为了解决这个问题，Link给我们提供了。状态编程的机制啊，也就是说我们可以把它用flink内置的状态类型来进行保存，那如果说把它保存成了flink的状态，那接下来flink就会帮我们把它管理起来，而且就会按照当前的key来进行访问和操作，哎，那另外呢，就是如果出现故障的话，都可以自动的保存，自动的恢复，哎，那所以现在我们如果是想保存成一个列表的话，那就使用一个自定义的列表状态叫做list state来进行存储啊，那当然了，这一部分涉及到了状态编程的东西啊，关于状态编程我们会在后边的第九章详细进行讲解，那现在呢，就是先来大概的有所认识就可以了。
11:11
诶，那一般怎么用这个状态呢？其实就是这样的一个流程，我们需要去定义这样一个list state，声明它的时候呢，放在open生命周期里面，我们现在不是一个k process function吗？它本身继承自复函数类，有open生命周期，在这里边我们就去创建一个list s，用来存储数据。然后k process function里边每来一条数据，就会调用process element方法，诶，那么这个方法关键要做的事情就是直接注册一个定时器，把它的时间设置为window and加一，就是我说的啊，零到十秒的窗口，我们就把它设成十秒加一毫秒的那个时间戳。到了那个时间，我们的所有数据就收集齐了啊，所以我们在process element里面还要做一件事，就是把当前到来的这个数据添加到列表状态里面。
12:06
那注册了定时器之后，接下来等到这个定时器触发的时候，当然就从列表状态里拿出所有的数据，直接排序得到top n就可以了。这就是我们整个的处理流程。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（85/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐