文章/答案/技术大牛

发布

首页视频156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

2022-12-022022-12-02 16:02:30播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/156_第十一章_UDF（五）_表聚合函数（三）_调用和测试.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
这就是对于这个表距和函数的一个定义啊，我们确实会发现这个逻辑还是比较绕的，比较复杂，这还只是最简单的TOP2，如果要是这个N值更大的话，这个逻辑肯定会特别复杂啊，那所以这个只是为了让我们更好的去理解表聚和函数怎么用，实际使用的时候，我们还是应该用之前link给我们提供了的啊，使用开窗函数去进行排序输出。好，那接下来我们就看一看在代码当中怎么样去使用这个表聚合函数了，那首先当然还是需要先去注册一下吧，我们当前注册的这个就叫做TOP2啊，那名称的话我们也就叫做TOP2就好了，然后接下来呢，那就是进行查询转换，诶我们说先要得到这样一个窗口统计count值的一个结果，URL count window table，然后接下来呢，诶，那就可以使用CQL查询，去使用我们定义的这个表具和函数输出套帕的信息，但是这里边啊，有一个问题就是目前FNKCQ里边并没有直接使用表聚合函数的方式啊，这个太复杂啊，所以说这个接口没有给我们直接开放出来，他也不太符合标准CQ的语法，所以呢，如果说这个时候我们想要使用表聚合函数的话，那就只有一种方式，就是调用tableable API了。
01:14
啊，那如果调用a table API我们就想到了，那就没有必要在表环境里边再去单独注册了，直接基于这个table的对象去调用不就完了吗？所以接下来就是使用。Table API。调用表聚合函数。进行查询转换啊，那这里边就是URL count window table去调对应的聚合方法，那其实我们知道要想聚合啊，之前我们在data stream API里边是先要去做分组嘛，按键分组K，那同样现在也是一样，我们现在要统计的所有的这个信息，Count按照什么去做排名呢？那肯定是每个窗口内的count值去进行排名啊，所以我们应该先做一个分组。现在做的是group by啊，那里边传一个expression了，对应的这个字段名要传进来，把这个Dollar符先引进来，我们现在按照什么去做分组呢？哎，这里就简单一点，我们知道现在的这个都是滚动窗口啊，那直接按照window and一个字段就好了，直接按照window and分组，然后接下来就可以做聚合，我们看到可以去aggregate。
02:20
如果直接ever的话，这里边其实想要调用的是一个普通的聚合函数，并不是表聚合函数，那表聚合函数呢？那就是可以输出多条结果，什么样的调用可以输出多少结果呢？下面这个flat aggreate啊，我们看到这个名称就跟之前的那个flat back相似啊，所以它也是我们输出的时候不是在那个get value里边直接返回一个值就完了，而是使用it value out.click调用一次就输出一行结果，类似于一个扁平化的过程。好，那么就调用flat advocate里边呢，那就是一个expression，这个调用方式之前我们也说过啊，在table API里面，它是使用一般啊，我们是使用call的这种方式去做一个调用。
03:04
里边呢，先传入当前要调用的函数名称啊，那后边呢，就是我们调用这个函数的时候需要的参数，那这里的这个参数其实就比较多了啊，我们这个参数看哪里呢？就是看这个accumulate嘛，每来一个数据，其实调的就是这里，它的参数是什么就都传在后边了，除了第一个这是当前的李佳器状态，后边都是传进来的参数。所以我们看有u ID count Windows start window，其实就是之前这个表里边我们说的所有字段，哎，那这就没什么好说的了，每一个都放进来吧。第一个是UID。第二个是。CT。然后后边还有。Window start。以及最后一个。Window and。啊，这就是我们调用这个过程啊，呃，当然了，就是最后这个调用出来的结果，我们其实就已经包装成了一个TOP2RESULT，诶，那对应的所有的字段呢，其实在这里边也都有相应的声明了，那接下来我们就可以去做一个。
04:12
Select，呃，这个select的话，其实我们应该是把所有的这些内容都要select出来啊，那非要写一下的话，那就单独的放在这吧，我们想要的就是当前的UID是哪个用户啊，然后比方说我们可以调整一下它的顺序啊，它的排名是几rank是多少。然后后边是它的count值啊CT。最后我们再跟上当前的窗口结束时间，只要跟一个窗口结束时间就好了啊，那起始时间滚动窗口的话，一下就看出来了啊，所以接下来我们可以直接挂一下，这个就叫做。这样的话，所有的处理逻辑我们就全部设计完了。不过在我们想要进行测试之前呢，还要解决另外一个问题啊，因为这里面啊，在table API和CQ里边确实是有很多很麻烦很琐碎的细节问题，比如说这里我们的数据类型，像这里我们把中间累加器和输出结果都包装成了样例类类型，哎，那这个就没有任何的问题了啊，里边所有的字段，哎，我们直接使用Java的数据类型也可以，使用skyla的数据类型也是可以的，这个是没有问题的，但是这里呢，我们还涉及到了一个window end的提取，那这个window and来自于哪里呢？哎，那在之前我们其实进行窗口操作的时候，利用窗口的表值函数TVF扩展出的一个新的字段，那这个字段的数据类型到底是什么呢？
05:40
按照我们之前data three API里边的经验，我们自然而然的认为它是一个长整型的时间戳，但是在CQ里边不一样，CQ里边我们扩展出的这两个字段啊，Windows start和window and，其实并不是长整型的，而是time step啊，就是跟我们的时间属性字段啊，前面我们讲到的这个TS转换之后的这个ET，它的类型是一样，都是time stand。所以在这里啊，我们把window start window end提取出来作为参数，如果放在这个表聚合函数里边的话，这里并不能把它指定成是长整形。
06:15
而要把它指定成time STEM类型啊，那直接用这个抓va CQ里边的time STEM就可以，这是标准CQ里边对应的时间戳类型，那这两个一旦改成time stamp的话，那我们就会发现啊，前面在进行这个状态的定义的时候，按Windows start和window and也要改成time step。最后的输出结果里边我们更新成了time STEM，那当然现在也得获取到time啊，这样的话完整的做一个更新，那初始化的时候呢，那就不要给长整形的最小值了，直接赋一个空值那就可以了。Windows start和window and全部复成的啊，这样的话，后边我们的这个类型上就没有问题了，另外还有呢，就是我们如果得到了Windows start window and这两个字段，然后接下来呢，直接在后边就基于window and又做一个分组，后边呢又要提取相关的字段，这个其实对于table API和link CQ底层它会出现一些混乱，因为本身Windows start window end啊，这两个字段就像时间属性字段一样，它是比较特殊的，它是有特定的含义的，如果我们把提取出来的普通字段还是就叫做这个名称的话，就会引起混乱，所以为了避免这样的混乱出现啊，最好前面我们提出来之后。
07:33
做一个纯命名啊，比如说这个我们就简单啊，叫做wsar啊，那后边这个window and我们就叫做W。所以接下来呢，我们这里边去group by的时候就是group by w，哎，那同样我们后面做提取的时候，提取出来的是war和W，这个就不会跟本身进行窗口操作时候的扩展出的两个关键字的这个字段啊进行冲突了，所以最终我们提取出的是W。
08:02
这样整个代码就没有问题了啊，所以接下来我们可以运行一下，看一看这样一个表具和函数进行套牌的操作，得到的结果跟之前是不是一样。好，我们可以看到这里已经输出了对应的结果，这里的输出结果呢，哎，我们看果然这个是需要tolo STEM的啊，啊，它是有这个不仅仅只有加I的。插入追加的操作，而且还有还有一个减D，减D是什么意思呢？哎，那就是对于这个表聚合函数的操作啊，它只涉及到两种，一种就是追加，另外一种是删除，所以这里面我们所做的这个TOP2榜单的更新，它是怎么变化的呢？并不是我们想象的那样啊，他可以直接删掉某一条，更新某一条就完了，它是一旦来了结果之后。整个把之前的表单全部删掉，然后重新追加新的内容。所以我们可以具体来分析一下这里得到的结果，哎，那就是第一条数据，哎，Mary数据输入，然后后面呢是Bob数据，这里我们需要注意啊，这个表聚合函数，它并不是初始的数据，一条一条来了之后直接就聚合了，它是先要做，按照我们的流程，先要做这样的一个开窗统计。
09:15
所以后边表句和函数收到的呢，它基于的这个动态表是哪张呢？其实是这张URL count window里面的结果。而这张表里面的count值到底是什么？我们其实看到啊，其实只有三条值啊，那就是Mary的数据是两条，然后Bob的数据有三条，爱丽丝的数据有一条，所以我们看到啊，首先来了的是Mary的数据。它的count值是二，所以我们输出的结果，这个标准的定义啊，那是首先是UID，然后后边跟着的就是它的rank，它的排名啊，所以它排第一，Countt值呢，Count值是二啊，这是对应的这个到九点钟的这个窗口，这个为什么是九点钟呢？因为我们一小时嘛，一小时那就第一个窗口是零点到一点，但是我们现在呢，还有一个东八区的时间啊，所以加上这个时区八个小时的偏移量之后，那就是八点到九点了，我们这里显示的是本地时区时间。
10:11
所以这里看到啊，当前这个窗口里边，Mary他排名第一，统计count值是二，然后接下来如果又来了一个新的，来了谁呢？哎，我们看接下来来的应该是爱丽丝的数据。诶，那怎么体现出来呢？爱丽丝它本身访问量是一，所以我们看到啊，他是直接先把之前榜单里边不是只有一个Mary吗，直接删掉了，减D删掉，然后接下来再把榜单里面的两条数据插入进去。其实我们看到Mary这条数据并没有变化，还是排名第一，Count值是二，后边追加了一个。Alice排名第二，Count值是一。那最后要增加的呢，之前窗口输出的还有一个Bob的数据，Bob的数据统计值抗是三，所以我们发现鲍B一来之后，哎，那之前的榜单两条数据都要变了，所以接下来直接两条删除，删掉MARY1，它的count值二啊，排名第一，那爱丽丝排名第二，Count值是一，两条删掉插入的是新的排名第一的Bob count值是三，排名第二的是Mary count值是二。
11:14
这就是关于使用表句和函数进行TOP2统计的一个过程，我们也看到这个过程确实是非常非常的麻烦，而且呢，在使用CQ自定义的函数的时候，会有很多细节需要去考量，所以在实际使用的时候呢，除非非常特殊的情况，一般我们其实是不会去做这样的自定义实现的啊，那一般对于topn的需求，我们直接使用flink已经提供了的开窗函数，然后使用roll number进行聚合来做一个topn的实现就可以了啊，这就是这一部分内容。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（156/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐