文章/答案/技术大牛

发布

首页视频038_第五章_Transform（四）_KeyBy

038_第五章_Transform（四）_KeyBy

2022-12-022022-12-02 16:02:30播放43

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/038_第五章_Transform（四）_KeyBy.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经了解了flink当中的基本转换算子，前面我们介绍了map filter和flat map啊，那整体来看的话，我们发现这些基本转换算子真的是在做一个转换操作，也就是说我们是基于当前的数据来一个就把它转换成另外一种形式，比如说map的话，那是一对一的转换，而如果是filter的话，有可能是一对一，也有可能是一对零，当然如果要是flat map的话，那就有可能是一对多了。那在实际的应用过程当中呢？很显然，我们对于数据的分析和处理不仅仅只是这样，每一个数据的一个转换操作，往往还要对大量的数据进行统计或者整合，然后提炼出更加有用的信息。比如说像之前我们在第二章当中介绍过的workout就是这样一个例子，我们当时在代码当中会发现，我们需要把当前所有的单词拆分出来，然后要统计每一个词出现的频率啊，所以在这个过程当中，我们后边的代码出现了。
01:06
分组聚合这样一个操作，哎，那对于flink而言，其实更多的操作我们都是要进行聚合操作的，这就是所谓的obligation，其实对于聚合操作我们并不陌生啊，在非常经典的大数据处理里边，我们都知道map reduce啊，所谓的reduce其实就是一个聚合操作啊，那在flink当中呢，如果说我们想要对数据进行聚合，首先先要进行一个按键分区的操作，这就是所谓的K败。啊，这主要就是因为在flink的data stream API当中，是没有办法直接调用方法去进行聚合的。我们在聚合之前必须先要做K败。这是为什么呢？呃，主要是因为我们当前在进行大数据的并行处理的时候，面对海量数据我们要聚合，肯定是需要进行分区操作啊，这就像在Spark当中，我们进行group by key一样，进行一个分区分组，这样才能够提高效率。
02:07
在flink当中，这个方法是基于data stream去调用一个K方法。所以我们可以认为KY就是聚合之前必须要用到的一个算子，那这个算子的主要作用就是要指定一个键K，然后我们就可以将一条流从逻辑上去划分成不同的分区。这里的分区我们就可以对应着并行处理的子任务啊，我们就可以认为每一个分区上的聚合操作都会放在一个单独的任务槽上去进行处理。我们可以看一下这张图，可以一目了然的知道K所做的操作。比如说我们这里所有的数据来了之后，经过一个KBY方法调用之后，那就会根据我们当前指定的K把数据从逻辑上分成不同的分支。比如说我们当前就是以每一个数据里边，假如有一个字段就表示当前这个方块的颜色，那么我们以颜色作为当前的K，当前我们看到浅色的方块就都会划分到上边这个分区来，那下边呢，呃，偏深一点的，或者说很深的颜色都会分配到下边这个分区来。
03:17
这里我们需要注意的是K的底层计算啊，因为我们直观上去想的话，既然它是要对数据进行分组分区，那我们自然想到是不是每一个K就对应着一个分区呢？呃，通过实际操作肯定我们发现不是这样的啊，因为我们在实际运行的时候，当前的资源，也就是slot数量是有限的，我们指定的并行度也是有限的。而数据里边的K的种类，很显然这个我们是没有办法预料的，很有可能我们数据里边啊，这个K是五花八门，比方说在实际应用过程当中，像我们之前所说的用户点击的这个E的事件。很可能我们就是以当前每一个用户的user。
04:00
用户名称作为当前的K啊，那么在这个过程当中，所有的用户他都是对应着一个不同的键值，难道说都要给他做一个分区吗？我们没有那么多资源，所以在实际的底层计算的过程当中，是要计算一个K的哈希值。然后呢，我们根据当前的分区数量做一个取模运算啊，那所以这里我们可以看到，如果这个K是po类的话，那必须还要去重写它的哈扣的方法，所以我们这里并不是每一个K都会对应分配到一个分区里面去，有可能出现什么情况呢？那就是两个不同的K分配到了同一个分区，因为它要做曲和运算嘛，我们当前只有系统只有两个分区啊，那么当前肯定会有不同的K放到一个分区来。我们这里可以确定的是同一个分区的数据，比方说我们当前K相同的这些数据，它一定都会分配到同一个分区里面去，而不同K的数据呢，有可能分配到不同分区，也有可能分配到同一个分区。
05:06
这就是K的一个基本概念，那在代码当中如果要调用的话，也非常简单，我们说就是基于一个data stream直接去调用KBY方法啊，这里我们可以在代码当中来做一个简单的测试。所以我们新建一个。Object啊，那接下来我们主要是测试这个聚合操作，Flink当中做聚合操作呢，必须先做K啊，所以我们就放在一起来做讲解，那就是transfer aggregation a test。接下来我们还是先把密方法写在这里。首先还是要创建当前的执行环境，Stream execution environment，创建出来get execution environment，然后当前得到的变量我们叫做env。同样还是上边把这个下划线引入，方便后边做影视转换，为了方便后边做测试，我们还是把全局的并行度先设置成一。
06:02
接下来我们还是借鉴之前的这个例子，直接把数据源copy过来。我们还是指定这样的几条数据，呃，像这个不同用户Mary Bob Alice的一些点击数据，我们还可以追加一些数据啊，比方说我们后边如果想要根据不同用户去进行分组的话，那比方说我们可以把这个Mary的数据。再来复制一条。后面还有一个Mary的点击事件。这里可能是点击了某一个商品的详情页。读入了data STEM之后，接下来那其实就是直接去调用一个KBY方法就可以进行分组了，我们可以看到这个KBY里边啊，它是有不同的传参形式的，首先可以直接传一个int类型的每一个字段的对应的索引号，而且我们看到后面有星号，也就是说当前这种方法可以给多个参数，参数是可变的。呃，不过呢，我们看到这种方式已经要被弃用了，那现在更加推荐的方法是什么呢？就是我们所说的在K里边直接传入一个key select，也就是我们所说的键选择器。
07:11
那键选择器又是一个什么样的东西呢？呃，下面我们可以看的非常的明显，所谓的键选择器最简单的实现就是直接传入一个拉的表达式给一个音频函数，放在这里就表示我们当前提取键的操作。当然了，对于这一个k select而言，在下边我们可以看到啊，它本身也是flink当中给我们提供的一个接口，这个接口里边呢，有唯一的抽象方法，就叫做get key。通过这个名字我们也可以看得出来，其实就是把当前的数据作为参数传入，然后呢，经过一系列的转换提取的方法，得到一个我们想要的键，然后进行返回，这就是我们当前分组的依据啊，所以在代码里边啊，我们可以用这种方式进行一个实现，比如说我们直接去new一个my key select啊，那当然了，下面我们需要对这一个my key select进行一个实现。
08:08
My key select。它其实是key select的。K select接口的一个具体的实现。我们把k select引入。当然了，这里我们发现它后面需要跟着有泛型，当前的key select，它的泛型是什么呢？一个是in，另外一个是K，这个其实看的很明显，一个就是当前输入数据的数据类型，另外一个就是当前提取出来键的类型啊，那对于我们当前而言，输入的数据当然是event类型了。那提取出来的键呢？假如说我们以当前的用户名user作为一个键的字段的话，那么对应的类型当然就是string了。里边必须要实现一个get key方法。这个get方法其实就是要返回我们当前想要提取的user嘛，所以直接把当前的in.user作为返回就可以了。
09:02
所以整体来看的话，我们当前所做的这个操作就是传入了一个提取键的操作，然后给T，这个方法得到的当前的数据流就变成了以user进行逻辑分流的一个数据流。那我们可以点进去看一下KY之后，得到的这个结果其实不再是data stream，而是变成了一个叫做KSTEM这样的一个数据类型，这个k stream在有些资料里边会翻译成键控流啊，或者叫按键分组流，按键分区流，它的特点呢，主要就是在原先data stream的基础上，指定了当前分组的K到底是什么。我们看到它后边同样这个泛型有两个对应的泛型参数啊，那我们可以看到一个是T，当然就是当前的数据流里边的数据元素的类型了，另外一个K就是提取出来的键的类型。另外我们看到它的这个类型声明的时候，这里它其实是继承自data stream啊，所以本质上来讲，我们K外之后得到的k stream也是一个data stream，接下来基于它的各种转换调用的还是data stream API啊，这就是我们所说的按键分区啊K的这个操作。
10:15
除了前面我们介绍的直接实现key select接口之外，前面我们还说了，另外可以直接在这里传入一个拉表达式，这种方式其实在实际的应用过程当中可能会更加的常见一点啊，因为更加方便啊。比如说我们这里想要使用user作为当前的这个按键分区的key的话，那么我们就可以直接写一个拉姆达表达式，提取当前的user就可以了。啊，我们也知道在SC当中可以用一个下划线，把后边这一部分做一个简写，所以实际上应用的时候，只要这么简单的一句话，就可以告诉我们当前分组的策略。当然了，我们也可以。按照其他的字段来进行分组，比方说我们用URL来做一个分组，这样也是可以的。
11:03
这就是关于K的具体操作。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（38/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

038_第五章_Transform（四）_KeyBy

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐