文章/答案/技术大牛

发布

首页视频039_第五章_Transform（五）_简单聚合

039_第五章_Transform（五）_简单聚合

2022-12-022022-12-02 16:02:30播放38

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/039_第五章_Transform（五）_简单聚合.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经了解了在flink当中按键分区KBY的具体操作，当然了这一部分我们并没有把它运行起来去进行测试，那如果说想要测试KPI的效果，应该怎么样去测呢？呃，其实这个也非常简单，我们当前全局并行度设的是一，我可以把它做一个调整，我把它调大变成四，那我们知道当前就默认相当于有四个slot资源可以并行执行任务。假如说我当前后边什么都不做的话，直接在这里我们把stream做一个打印输出，因为execute执行起来，后面这一部分我们都全部都注掉，直接运行，我们可以看一下效果是什么样子。运行一下，我们可以看到当前的四条数据其实会平均的均匀的分布在四个分区上面，1234啊，每一个分区上面都有一条数据打印输出了，那假如说在上边我们做了分区操作又会怎么样呢？我们把上边这一句KBY加进来，然后就不要基于stream去进行print了，直接KBY之后做一个打印输出，因为我们知道KBY之后得到的k stream也是data stream，当然也可以直接打印了。接下来我们再看一下现在的状态是什么样。
01:19
运行。我们可以看得非常明显，跟刚才就有所不同了，我们得到的这四条数据里边，Bob、爱丽丝这两条数据还是分别处在第三和第四个分区上面，由不同的slot去执行刚才的任务，而Mary呢，Mary的两条数据就不会再分开了，而是全部都放到了第二个lot上做了打印输出。这就是我们说的KBY，之后所有的数据会按照当前K的情况。进行分组，分配到不同的分区，如果是相同P的话，是一定会被分配到同一个分区里面去。
02:02
而不同的K的话，那就有可能分配到不同分区，也有可能分配到相同分区啊，这个就看的非常的明显。当然了，对于P而言，我们的目的并不是要做这样的一个分区的测试啊，我们的关键还是要做后边的聚合操作，所以接下来呢，我们可以基于当前的分区去做更多的聚合操作，那首先接下来我们要介绍的就是所谓的简单聚合操作啊，什么叫简单聚合操作呢？其实就是link里边给我们已经提供了的最基本的，最简单的直接调用就可以的一些API。比如说之前我们在word count里边已经用过的some，针对某个字段直接进行求和，另外呢，还有mean max mean by max，这个顾名思义，这就是基于某个字段去求取一个最大值，最小值嘛，啊，那这里我们需要区分的就是这个命和mean by看起来都是求最小值，那么它们之间有什么区别呢？啊，简单来讲就是对于命而言，我们针对某一个字段啊，比方说啊，我们这里边有一个count。
03:10
这个字段是一个数量，我们可以求一个当前的最小值，针对这个字段求出最小值来之后，那假如说我们还有其他的字段，User URL，假如还有这些字段，那怎么办呢？对于命而言，它的聚合结果是，其他字段都以最初的第一条数据的值为准。哎，那我们就知道了，在有些场景下，我们可能不希望这样去做，我们希望的是把当前的这个count值求出一个最小值来，之后呢，是要把它对应的其他的那些字段也要完整的提取出来，就是那条完整的数据我们要拿出来，那怎么办呢？那就用明白明白所提取的是包含了字段最小值在内的完整整条数据啊，这个其实我们也是在代码里边做一个简单测试就可以看得很清楚。接下来我们还是啊，基于之前的这段代码可以做一个简单的测试，比如说我们前面已经针对当前的user作为K进行了一个分组啊，这里我们需要注意的是当前如果说啊，前面我们没有做分组，基于data stream这样一个类可以直接调用对应的sum方法吗？我们看到如果搜some的话，没有这样的方法。
04:23
或者我们搜max mean同样也是没有这样的方法的，那怎么样才可以真正的调用呢？诶，那就是我们说的必须要做KBYKBY之后得到的key stream这样一个类型里边，接下来我们去搜max me。这些方法就全部出现了啊，所以接下来我们真正要做的肯定就是先做KBY，然后调用对应的简单聚合方法啊，那KBY和聚合这两步操作，我们可以认为它就是成对出现的啊，要做聚合先做KBY，那我们现在根据user做了一个分组，那比方说我们就按照每一个用户最后一次点击统计每一个用户最近的一次点击事件吧，那我们应该调用什么样的方法呢？其实非常简单，就是那就是截取最大的时间戳，这个如果我们看的不是很明显的话，也可以在多加一些数据，比如说Mary的这个数据。
05:22
我们可以继续在后边增加，这里可以啊，点击一个ID为三的，ID为二的，我们可以给更多的时间戳，而且这个时间的也可以打乱，我们来看一看当前的最大最近一次的点击到底是以谁为标准的，所以接下来我们自然就可以给一个max。统计当前的最大时间戳，这里有一个问题，就是说，呃，到底是用max还是max by呢？两种我们都可以使用来进行一个测试，比如说我们先用max，后边我们看到它要传参，这里的传参，诶之前我们KBY给的是一个p select，那这里的max呢？它其实没有对应的这种接口的实现，它只有两种传参方式，我们看到一个是传一个int类型的position。
06:11
也就是字段的索引位置，另外一个是string类型的field，也就是某一个字段的名称。所以这其实就是我们所说的简单聚合所要传递字段的两种方式，一种是指定位置，另外一种是指定名称。啊，那像我们这里对于一个case class，一个样例类而言，显然里边我们可以直接指定每一个字段的名称，好，所以接下来我们这里边指定的就应该是max，给一个string类型，我们要的是比方说time step。这样传进去就可以了，好，然后接下来我们可以直接运行一下，看一看输出的结果是什么样子。当然了，现在我们当前的并行度设置的还是四啊，如果我们想要看的更加清楚一点的话，也可以把并行度再调回一啊。现在我们可以看到当前测试得到的结果，首先Bob，爱丽丝他们两个的话都只有一条数据，那当然输出的就是自身了，我们关键看Mary Mary的数据比较多。
07:16
Mary的第一条数据来了之后，很显然诶，得到当前的最大时间戳是1000，然后呢，第二条数据来了之后，当前最大是4000，后边第三条来了之后最大是6000，第四条来了之后最大还是6000不变啊，最后一条这个5000，第五秒钟到来的点击事件并没有更新我们当前的最近一次点击事件啊，那所以这就看的非常的明显，而且对于这个max呢，还有一个特点，我们也可以看到除了最后一个最大时间戳之外，前边的内容。它输出的都是我们第一条数据对应的内容啊，都是maryry后其他点击的URL都没有出现过啊，所以有些场景下，我们可能不喜欢这样的一个输出啊，我们可能希望就是假如说哎，我统计出来了，他最近一次点击，我还得知道他最近一次点击到底点击的是谁，诶，所以这样的话我们应该用谁呢？那这样的话我们就可以用一个MAX8啊，那用max by，同样它里边所要传的参数也是可以传一个string类型的当前的字段名，也可以传一个int类型的位置。
08:25
我们当前如果是样例类或者是坡类的话，直接传它的名称就可以了，那这样的话传进来我们可以运行一下，看一看当前的结果又是什么样子。我们可以看到现在就有所不同了，同样我们还是第一条数据来了之后，Mary后就是1000，然后第二条数据，第四秒的数据来了之后，我们这里就更新成了Mary pro的IDE4秒钟，这就是当前最近一次点击的完整数据啊，那当然了，六秒钟来了之后，同样要更新五秒的数据，最后来了之后呢，不会更新之前的最近一次的点击数据，它还保持着之前的模样。
09:06
这就是我们所说的简单聚合啊，那这里需要多说一句的是，我们刚才只讲了样例类里边直接按照字段名称去指定要针对哪个字段进行聚合，那假如说不是样例类，不是破柱类型，那又怎么办呢？我们说在实际应用的时候，另外一种常见的应用类型是元组类型，假如说我们这里的数据是元组的话，那就涉及到这样一个问题，后边每一个元组它对应的名称到底是什么呢？我们注意啊，在flink当中，它针对scla里边的元组，其实每一个字段名称就是以下划线后面加上当前的字段的位置，字段的索引位置来进行一个表示，比如说我们当前一个二元组的话。就是A1这样的一个二元组的话，那么我们如果要是表示第一个字段这个a string类型的A的话，那么我们就可以直接用下划线一来作为它的名称。
10:09
那如果说我们当前要上啊，要统计的话，显然是要统计一个数字啊，或者是max命啊，统计一个数字，那要统计后面这个一三这样一个数字的话，那么我们就可以用下划线二来表示它的名称。这里需要注意的就是说下划线二是它的名称，那如果说我们要用int类型的数字来表示呢？注意这个数字位置是对应的是一。而前面的第一个字段啊A，它用下划线一作为自己的名称，那么它对应的位置是什么呢？索引位置是零。哎，这个我们需要特别的注意啊，这就是为什么之前我们做word的时候是S1啊，就是当前如果是int类型的索引位置的话，是从零开始的，而如果是元组类型，我们用下划线的这种形式啊，表示它的这一个名称的时候，是以一开始的，下划线一，下划线二。
11:03
这种方式我们可以自己去测试一下啊，其实是非常简单的，只要自己from elements定义一个元组，就可以看到它对应的聚合情况是什么样的。所以我们也可以简单的总结一下，就是对于聚合计算而言，在flink当中它的规律是什么呢？其实就是分成两步走，先做一个KBY。得到一个kid street。然后基于这个kid stream再调用一个聚合方法。那调用完聚合方法之后，得到的又是什么呢？哎，那其实得到的就又变成了data stream就又回去了。所以我们说整个的这个聚合操作也是一个标准的data stream的转换操作，呃，那在源码里边我们也可以看到非常的明显啊，比方说这里我们调用了max之后，得到的就是一个data stream t，当前的泛型key就又不存在了，因为我们得到的当前其实就是一个简单的聚合结果啊，那之前的数据类型是什么，现在聚合的样子也还是什么，只要返回一个T类型的数据就可以了。
12:14
那么对于聚合操作的底层呢，其实我们可以看到啊。在源码里边是调用了aggregate这样一个private私有的方法去进行聚合的，它内部其实是创建了一个对应的aggregator，哦，这其实就是flink内部给我们提供的聚合算子啊，当然就是有可能啊，是一个some aggregator，也有可能是一个比较的comparable aator，这就是看我们调用的到底是some还是mean max max败了。最终其实都是一个聚合算子，那在这个算子里边呢，其实是为我们当前的每一个分组的K。保存了对应的一个中间聚合状态啊，所以在flink里边我们说它是有状态的流处理，什么意思呢？就是像当前我们针对每一个K进行分组聚合的时候，来一个数据就把当前的这个状态做一个叠加更新，保存来一个数据就做一个叠加更新，所以之后我们就可以不停的更新，实时的更新这个状态，也可以实时的获取到当前的聚合结果。
13:23
这里我们也可以看到啊，对于无限流处理而言，当前的数据源源不断，无休无止，那中间我们得到的这个聚合状态其实就永远不会被清除掉，它一直要保存在这里啊，那每一个K都要对应的保存这样一个状态的话，那显然我们这个状态其实是比较多的啊，啊，所以我们如果要使用聚合算子的话，要使用在只含有有限个K的数据流上，如果说我们的K无限多的话，那相当于最后我们的内存资源就会被耗尽啊，这个是我们在实际应用过程当中一定需要注意的一点，这就是关于简单聚合的操作。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（39/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

039_第五章_Transform（五）_简单聚合

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐