文章/答案/技术大牛

发布

首页视频041_第五章_函数类

041_第五章_函数类

2022-12-022022-12-02 16:02:30播放33

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/041_第五章_函数类.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
到这里为止，我们已经了解了link当中转换计算的基本转换和聚合转换，那这两种方式我们会发现啊，它们其实是有共同的特点的，首先我们说它都属于data stream API调用的时候呢，在代码当中都是我们先得到一个data stream，然后接下来去调用一个相应的方法就可以了，比方说诶，点map或者。KBY之后点reduce，或者说点Fla map.filter啊，这些都是对应的一个方法调用，对于这些方法调用里边传入的参数其实也是有共同的特点的，比如说像前面我们说的啊，点map这里真正要传的就是一个map function式，那filter的话就是一个filter方式，后面我们讲到的reduce的话就是一个reduce方式，甚至我们还可以扩展到之前讲到的原算子啊，Source这里。要传入的其实就是一个S方式啊，这是之前我们也已经说过，所以这里我们会发现啊，它的命名规则其实就是当前的某一个转换操作加上一个方式表示我们当前要实现的一个具体的接口，而对应的这个接口呢，其实他们有一个共同特点，我们看到里边它都只有一个单一的抽象方法。
01:24
当前的这个reduce function，它为什么叫做function呢？我们看到后边它其实是继承自function这样一个接口，那这个接口本身就是空的，这就是我们所说的函数接口。它之所以是空的，主要就是为了方便我们扩展成为所谓的单一抽象方法的接口，就像这里的map function或者reduce function一样，里边只有一个唯一的抽象方法啊。其实我们知道啊，对于SC这样的语言，或者像Java java8之后也有了类似的一些特性，那就是针对单一抽象方法接口，或者说我们有一个简称叫做Sam。
02:04
Sam接口，那么就可以利用一个拉姆达表达式。拉姆达表达式来实现对应的功能啊，那这样的话，我们在具体代码里边就会特别特别的简单啊，因为标准的这种定义方式呢，我们真正的写法，那就应该是要自己去实现这样的接口，把对应的类定义出来，然后里边具体去实现相应的抽象方法。这种方法比较符合我们在Java代码当中的一般的习惯，那但是呢，在我们整个定义flink的转换计算流程的过程当中，就显得比较繁琐了啊，所以我们更希望的就是说在这个处理流程里边，直接一目了然的把我们每一步要做的转换计算展示出来啊，那这个时候使用拉表达式就是一个很好的方法。所以我们看到啊，在flink的代码里边，使用scla进行编程的话，主要就可以有这样的两种方式去实现我们中间的转换计算，一种就是实现对应的接口，诶，我们用一个类来进行实现，另外一种就是直接传入一个拉姆达表达式，哎，所以这两种方法其实我们看到在本质上它都是一样的，最终都是实现了我们用户自定义的一个类，然后实现了相应的方式接口啊，所以有时候呢，我们就把这种方式叫做flink当中的函数类啊，或者说我们把这个叫做用户自定义函数udf。
03:39
不管是我们传入了安表达式，还是说我们真正意义上的实现了接口，其实最终底层都是使用一个函数类作为参数，传给了我们当前的转换算法。那接下来呢，我们可以对这几种不同的编程方法再做一个梳理和总结啊，那就是对于这个所谓的udf的实现啊，其实可以分成这样的几大类啊，前面我们说了主要就是两大类，一类就是老老实实的把对应的这个接口实现，另外一种方式呢，就是直接传入一个拉姆达表达式，那此外还有另外一种方式，我们知道啊，在这里实现接口的时候，我们也可以不把这个类单独定义出来，而使用匿名类的方式来实现接口。
04:23
直接传入一个匿名类，这种方式也是可行的，所以接下来我们可以在代码当中来测试一下udf到底有哪些具体的使用方式。我们还是去new一个SC的object。当前我们测试的是。主要还是针对当前的转换是udf test。这里我们需要去强调的一点就是主要这里我们讲到的udf函数类都是针对转换计算的，因为我们知道转换计算往往我们要指定的就是一个操作嘛，这个操作用一个函数是最方便去表达的，而像之前我们所说的这个SS任务呢？哎，那SS任务这里边我们要传的这个s function其实是有所不同的，S function里边它并不是单一抽象方法，就像我们前面实现的一样，里边核心一个wrong方法，一个cancel方法，那显然它就不能简写成一个long表达式了。所以我们注意啊，只有。
05:21
单一抽象方法接口，它的这种实现可以用拉姆达表达式来进行实现，因为我们知道你这有两个抽象方法的话，那拉姆达表达式难道传入两个吗？我们当前的参数只有一个呀，所以这种方式我们就没有办法去简写了。所以其实拉姆达表达式我们也可以看成是scla或者是Java吧，里边给我们提供的一种语法糖啊，它其实实现的底层就是单一抽象方法接口，那接下来呢，我们就还是做一个测试类方法，那前面的部分呢，我们还是做一个照抄，直接把前面我们实现的过程做一个引入。把reduce这里前面引入数据和获取执行环境的部分全部copy过来。
06:05
那上面同样，我们还是下划线引入后边进行影视转换。好，那接下来我们就要去测试。函数类自定义函数类udf的用法。那首先这里我们测试最基本的经典的这种用法，那就是所谓的实现一个自定义的函数类，我们这里就用最简单的吧，用之前我们所说的那个filter方式来做一个举例吧，我们想要测试的功能是。去筛选。筛选URL中。包含某个关键字，比方说我们筛选这个后。的event事件。诶，所以这里边我们的逻辑其实就是判断每一个数据来了之后，它的URL里边是否含有后关键字啊，那这里的第一种方法的实现其实非常简单，我们这里直接stream.filter然后里边哎，那当然了，我们可以直接去你一个自定义的函数类，那我们就定义一个MY。
07:13
Filter function。那下面我们就是需要去实现了。实现自定义的。Filter function。Class my function那边我们实现的是function。当然了，对应的泛型是event。里边有一个唯一的抽象方法，就叫做filter啊，那所以这里面我们所要去提取的当然就是URL里边是否包含了，那么我们调一个contains方法。后。诶，这就是我们具体的一个实现得到之后，我们可以直接做一个打印。这个是一。
08:00
因为最后要执行起来，我们可以直接测试一下，看看能否得到对应的数据。当然我们看到了这里得到的数据就只有第一条Mary的第一秒钟的点击事件，它是点击了后这个页面，那这里面如果说我们想要去提取的是比方说带有prod商品的详情页的信息的话，哎，那当然了，在这里边我们直接运行一下就会发现得到的，那就是后边Mary的三条点击事件啊。哦，这里我们有一个小的拼写错误，我们可以改，改正过来。My function。那除了这种方式之外，当然我们还可以用第二种方式。那就是使用匿名类。来实现filter function式接口啊，那这种方式其实我们知道在Java里边也是通用的啊，那直接filter里边要实现filter function这样的接口，我们可以不定义出声明出对应的自定义的类来，我们直接拗一个filter function就可以了，好了，里边当然也是要实现对应的filter方法，这里边的逻辑呢。
09:10
完全一样，那就是。t.URL contains pro来只要做这样的一个实现就可以了，那接下来我们同样可以把它做一个打印，这个是二我们运行的话会会发现得到的结果。跟前面的一输出应该是完全一样的，都可以把当前商品的详情的访问事件全部提取出来。啊，那这两种方式如果要比较的话，我们会发现啊，使用匿名类的好处就在于我们省去了对于自定义类的声明，那反过来，如果说我们使用的是自定义的类，它有额外的好处就是我们可以给它再去添加一些属性，比如说我们在这里像要去判断的某个关键字，这个proudd，或者说后，哎，我们这里边是写死在里边的，那假如说我们每次要更改关键字的时候呢，显然呢，就要实现不同的类了啊，或者说我们在这里就要修改底层代码了。
10:09
如果说我们想要通用性更好，完全可以把这个关键字作为一个属性提取出来啊，那所以我们前面就可以怎么做呢，比方说在这里边做一个传入。传入一个pro，那么现在我们在my future function对应的定义里边，我们就应该要加上它的一个属性参数了，比方说我们就叫做keyword。String类型啊，那传一个pro进来，这就是我们要去提取的关键字，那这里边做筛选的时候把keyword传进来就可以了，好，这里我们可以直接运行一下，看看得到的结果是否还是一样。完全没有问题，跟我们之前的效果还是一样啊，所以这样的话就是呃，各有各的方便，使用匿名类可能省去了定义类的麻烦，那如果我们自己把这个类声明出来的话，可能就会有很多扩展的功能可以去实现。
11:06
当然了，我们会发现啊，即使是使用匿名类，这种方式也不是足够简洁的啊，因为我们还有另外一种更加方便的写法，那就是第三种。使用匿名函数拉姆达表达式。那这种写法的话，我们应该现在也非常的熟悉了，Filter里边可以直接定义好按照什么样的条件去筛选当前的数据，那这个逻辑当然跟之前还是完全一样的，只要这样写好就行。当然了，这里还有简写形式，我们用下划线代替只出现一次的参数，这样的话就是当前每一个数据按照它的URL是否包含pro这样的关键字来进行一个提取，非常的简单。啊，所以我们会发现在实际应用的过程当中啊，往往我们使用的方式呢，是拉姆达表达式，或者自定义一个函数类啊，那中间匿名类的方式可能会使用的比较少一点，而且其实我们发现啊，拉姆达表达式直接这么一写的话。
12:08
从代码的角度来看，跟我们这里边作为属性传递进去一个关键字没有什么区别啊，所以其实这个拉姆表达式应该是之后我们在编写flink代码过程当中用的最多的一种方式啊，这就是函数类的用法。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（41/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

041_第五章_函数类

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐