文章/答案/技术大牛

发布

首页视频042_第五章_富函数类

042_第五章_富函数类

2022-12-022022-12-02 16:02:30播放43

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/042_第五章_富函数类.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
现在我们已经了解了在flink当中函数类的用法，其实我们发现啊，对于flink的操作流程来讲，每一步具体的转换算子就是通过这样的一个函数类来定义它内部的转换操作的，而在这个函数类里边呢，最关键的其实就是我们所实现这个接口里边的那个唯一的抽象方法啊，那所以它可以用一个拉姆达表达式去直接进行表示。那这里边呢，自然会想到一个问题，就是这里的这个方法，比如说我们filter function里边的filter方法到底是什么时候被调用呢？哎，我们在整个处理流程里边看不到调用filter方法的这个过程啊，我们在外边的filter难道调的就是这里吗？注意不是啊，在外边我们定义的其实只是一个一个的算子，我们知道对于程序而言，本身的这个数据流图将会在客户端上打包进行转换，生成作业图，然后提交到集群上，由job manager生成执行图，所以这里边我们定义的就是每一步的计算。而这里边真正意义上调用filter方法，那是要等到数据来了之后，我们看它的参数是当前的数据嘛，所以其实是我们的数据流每来一个数据。
01:23
到达当前的filter算子的时候。那么就会调用到我们当前这个算子里边，定义好的这个filter方法里来，那当前的数据呢，就是我们这里的参数。执行当前的流程，哎，那得到的最终结果根据它到底是true还是false，决定当前算子的输出到底是什么？哎，这就是整个我们调用和处理的过程，那在这个过程当中，可能我们又会联想到另外一个问题啊，我们只定义了每一个算子里边每个数据来了之后调用的这个方法。那假如说我现在要针对这个算子统一执行一系列的操作，我不是针对每一个数据来了之后才执行的，而是在所有数据来之前，我当前这个算子，这个工位已经创建好的时候，我就想做一些初始化的操作，这个怎么办呢？
02:19
那我们看到udf在一般的函数类里边是做不到这些事情的。那在flink里边有没有这样的功能呢？能不能做到这件事呢？当然是可以的啊，这个时候呢，我们就要用上更加复杂的一种用户自定义的函数，哎，那对应的我们把它叫做负函数类。其实简单来讲啊，负函数类跟函数类一样，或者说它就是一个函数类的扩展版本，它是rich版本的函数类。为什么叫rich呢？Rich是富有的意思吧，它到底附在哪了呢？呃，简单来讲就是说它比一般的函数类会提供更多的功能，最大的不同就在于负函数类是可以获取运行环境的上下文，而且拥有一些生命周期方法啊。
03:09
那这个生命周期方法呢，主要就是两个，一个叫open，另外一个叫close，那open呢，我们知道这是这就是开始嘛，所以它是当前一个复函数类，也就是我们整个这个算子任务的初始化方法，它会开启一个算子的生命周期。比如说我们定义了一个map function，那map function呢，它是没有生命周期这个概念的啊，就是里边有一个抽象的map方法，每来一个数据就会调用这个方法，如果说我们想要定义一个负函数的话，那对应的就会有一个reach map方式。哎，那当然了，如果要是filter function的话，那对应的就会有一个reach filter function，几乎每一个函数类对应的都有它的这个rich版本，哎，那所以这个时候呢。就是在所有数据到来之前，在当前map任务这个算子创建的时候，就会调用它的open方法。
04:07
啊，所以我们就会发现这个open方法里边呢，就可以做一些初始化的工作，像文件IO流的创建啊，数据库的连接啊，配置文件的读取啊，这些一次性的初始化工作都适合在open方法里面去完成。啊，那与之对应的还有一个就是close方法，Close方法呢，是整个生命周期当中最后一个调用的方法，呃，类似于我们的解构了啊，之前我们这个算子任务在创建的时候调用open，那在当前这个算子任务结束要销毁的时候呢，当然就可以调用close，它可以用来做一些清理工作。那另外我们说这里还可以获取到运行环境的上下文，在运行时的上下文里边呢，其实可以获得到更多的信息，比如说当前正在执行的子任务的编号啊，啊，比如说当前运行时环境里边的一些状态啊，这一部分都是可以在负函数里边获取到的，所以这一部分呢，其实对于flink编程而言是非常重要的一个功能扩展，我们在后边会讲到所谓的状态编程，那这一部分在负函数类里边就可以得到非常丰富的应用。
05:18
接下来我们可以在代码里边也来测一测负函数的功能。同样，我们在当前的包下边去new一个SC的object，当前我们测试的是还是转换transform下边的复函数类，我们叫reach function test。没方法先写出来啊，那整体的测试流程呢，跟前面还是一样的，所以我们干脆还是把前面的获取、执行环境设置、并行度以及数据源的读取全部都copy进来上面同样我们还是引入一个下划线。接下来有了数据之后，我们就可以去定义一些转换计算了啊，那基于当前的STEM，我们可以去定义一个map，之前我们的map定义的都是简单的转换啊，或者说自定义一个map方式，那现在呢，我们希望。
06:10
定义。自定义一个rich map。方式。啊，那么我们想要去测试负函数类。的功能。啊，那所以接下来我们在这里可以去又一个my rich map，接下来就要去具体来实现它了，Class。My reach map注意，现在我们要去实现的是一个rich map方式。同样后边需要有input和OUTPUT2种数据类型的泛型，我们点进去会看到啊，Reach function函数类其实跟函数类稍微有点不一样，函数类我们看到它都是单一抽象方法的，接口是interface，而rich function呢，负函数类呢，它是一个抽象类。
07:04
主要就是因为什么呢？我们看到它是继承自abstract rich function，继承了抽象的复函数类这样一个抽象类啊，那所以当然它本身也是一个抽象类了，在这个抽象类里边，我们就会看到它有当前的运行时上下文环境可以去获取，另外呢，还有open和close对应的生命周期方法啊，那对于rich map function而言，它继承了抽象复函数类，除此之外还要去实现一个map方式。我们看到这里它其实都是Java代码，所以是function。那里边当然还是必须要实现一个map方法了，所以接下来我们还是先把当前的泛型先写进来。Event是输入，那输出的话，我们就简单一点吧，假如说直接输出一个长整型的数字吧。里边必须要实现一个map方法。
08:00
这里我们想要得到一个长整形的数据也非常简单，因为当前的事件里边有一个数据时间戳，就是长整型的，那我们干脆就把它的时间戳做一个输出就完了嘛，啊，这就是我们一个简单的测试啊，转换成一个时间戳，长整型的时间戳进行输出，这就是我们这个慢function的基本的转换逻辑，哎，那我们知道啊，如果只是定义这个的话，我们只要用map function就可以了，那现在rich map function里边显然我们就可以获取到更多的信息，比如说。我们可以来实现一个重写一个当前的open生命周期方法，这个方法是在当前的map算子创建的时候就会去直接调用的一个初始化方法，所以呢，它会在所有数据到来之前直接调用，而且只调用一次，诶，那这里我们可以在里边添加进去自己想要的一些信息啊，这里我们也没有实际的这个应用需求啊，所以我们就简单的做一个测试吧，比如说我们直接做一个打印吧，我们可以利用运行是上下文，前面我们看到啊，负函数类里边不是可以获取当前的运行上下文吗？我们可以利用运行是上下文获取到当前正在执行这一个任务的并行子任务的索引号啊，就到底是哪一个并行子任务正在执行呢？我们可以把这个信息打印输出。
09:26
所以这里面我们可以写一下索引号为。多少呢？呃，这里边我们需要从当前的runtime context里边去获取了啊，这里我们可以看到可以获取job ID啊，获取当前的作业ID，获取当前的task name，获取当前的任务名称，获取当前的状态啊，各种各样的方式，那现在我们要获取的这个信息呢，是get。Index of this sub tasks，当前子任务的索引号，然后接下来后面我们继续写当前编号为什么的任务现在是open，所以我们可以写一个开始。
10:06
这就是一句话，测试了这么多内容，有open就有close，我们同样还可以去重写一下close方法，Close方法呢跟open是非常类似的，它是只有在当前的算子任务结束的时候做一次性的调用啊，那对应的啊，我们也把这个做一个获取，然后打印输出。现在就是。当前任务结束。好，有了这个之后，接下来我们可以直接运行来看一看效果到底是什么样子的，上面我们还要加上一个print打印以及env要执行起来。好，接下来我们运行。首先这里我们有很多数据啊，那这里我们可以看到啊，所有数据到来之前，因为我们当前的并行度是一嘛，所以是按照顺序来执行的，所有数据到来之前，首先就会有一条说索引号为零的任务开始。
11:04
然后接下来每来一条数据，就会执行一次我们当前的map方法啊，那对应得到的数据呢，最后我们要做一个打印输出，所以每一个数据来了之后，它的时间戳依次做了打印，当所有数据都读取完毕之后，我们当前任务要结束的时候呢，调用了close方法，打印出了一句索引号为零的任务结束。哎，这就是我们整个这个过程，那当前只有一个索引号为零的任务，因为我们并行度是一嘛，我们还想继续测试的话，还可以把它换成并行度是二，再做一个测试。调一下并行度，看一看效果会有什么不一样。接下来在测试我们看到输出的话，因为我们知道啊，当前的这个外部任务，整个这个操作是会分发到不同的slot上，不同的并行子任务去执行的，那当然有一个并行子任务就会调用一个open方法啊，当前我们就会执行一下，我们可以看到索引号为零的任务开始，索引号为一的任务开始。
12:06
而后边的数据呢，每一个数据可能会分发到一和二不同的slot上面去执行，去打印输出，每一个数据都会来了之后调用一次map方法进行转换，最后啊，那全部处理完成之后呢，索引号为零的任务结束，索引号为一的任务结束，只调用一次close方法，注意是每个并行子任务都只调用一次open和close，而每个数据来了之后呢，都会调用一次map方法。这就是我们所说的复函数类的用法，所以在实际操作的时候，像这个复函数类应该怎么去使用呢？啊，那一个常见的应用场景就是我们要连接到一个外部数据库，想要去读取数据或者说写入数据的时候，那这个时候对于数据库的连接操作，如果我们放在这个map这个方法里边显然是不合理的，因为我们知道啊，你在这个map里边，它是每来一个数据就会调用一次，对于数据库的连接就会反复的打开关闭，反复的打开关闭这个代价就会比较高，很显然我们应该在初始化的时候一次性的建立连接，后面每来一个数据之后进行读写操作就可以了。
13:20
那当然了，最后在整个任务结束的时候，再调用close方法里边我们再去关闭到数据库的连接，释放资源啊，这样就完成了整个的流程。所以这是在实际应用当中比较常见的一种负函数类的用法。关于负函数类呢，另外一个常见的功能啊，常见的用处就是因为它可以获取运行上下文，前面我们也可以看到了，获取上下文之后，接下来可以get state，可以获取当前的状态，所以呢，我们就可以在里边非常灵活的自定义状态，然后用状态去处理各种各样灵活的功能啊，后面我们讲到状态编程那一章的时候，还会再反过来用到负函数类啊，这就是关于负函数类的用法。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（42/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

042_第五章_富函数类

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐