文章/答案/技术大牛

发布

首页视频135_第十一章_动态表和持续查询

135_第十一章_动态表和持续查询

2022-12-022022-12-02 16:02:30播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/135_第十一章_动态表和持续查询.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们现在已经了解了table API和Li CQ基本的用法，那我们会发现其实跟get vpi啊调用的过程是非常类似的，整体也是那么几步走，首先创建一个执行环境，我们现在创建的是一个表环境，然后接下来呢，创建一张输入表，一般我们是创建一个连接器表啊，连接到外部系统，读读取数据，然后接下来得到了表之后，就可以直接写CQ或者是调用table API的那些方法转换去进行表的查询转换了。得到的处理结果表呢，我们再把它写入到一个输出表里边啊，同样应该是一个连接到外部系统的连接器表，那整个的流程这样我们就讲完了，我们会发现啊，在这个过程当中可能比较麻烦，比较特殊的一步呢，其实是最后介绍的这个表和流的转换。那从方法调用上来讲还是比较简单的，那最麻烦的是什么呢？其实是要考察。
01:00
我们在将一个表转换成流的时候，诶，到底能不能直接调用to date string方法把它转换成一个普通的数据流啊，因为我们知道，假如说这张表里边有了一些更新操作的话，它就是当前某一个值，它不是直接追加上去了，而是要改之前的某个值，这个时候你就不能直接把它转换成流了，因为你没法撤回之前的数据嘛，所以就只能把它按照一个。更新日志的方式，进行一个流的改写啊，所以这就是我们说的啊，必须去调用一个to changelo streamam方法啊，这里就稍微的有一点麻烦，所以我们会发现啊，在flink这样的一个流处理框架当中，我们要进行这个表的操作，或者说直接去写CQ的话，其实有一点啊，有一点别扭的啊，就是本身这里的概念啊，好像就跟这个流处理是不太一致的啊，所以我们会发现啊，本身这个关系型表，或者说这个CQ啊，我们去进行结构化查询的这种定义，它本身我们处理的数据呢，其实就是一个有界的集合，那就是相当于我们这张表里边现有的所有数据啊，一框把它全框出来，拿到对应的数据集，然后去处理里边的计算结果，那所以我们发现它其实是更加适合批处理的场景。
02:19
所以之前我们在MYSQL或者在have里边啊，它都是固定的数据集都放在那里了，哎，我们进行一个查询处理，使用CQ就会非常的顺手。而对于flink这样的流处理框架呢，我们要处理的数据是源源不断到来的，并不是说哎，我这里边写一条CQ的话，一下就把所有的数据都收集齐框住了，不是这个数据在不停的来，不停的变，那所以这里边我们会发现啊，当前进行处理的过程也需要源源不断的去进行处理，而且得到的结果呢，也不是。一劳永逸一次就得到最后的结果，也要不停的更新，不停的变啊，所以我们看到啊，这里可以把关系音表或者CQ跟流处理里边的一些核心概念做一个对比，我们就知道想在流处理里边去使用table和CQ到底有多复杂了。好，我们首先可以去对比一下啊，就是当前我们处理的数据对象到底是什么样子呢？
03:18
啊，对于这个关系表里边，我们要处理的就是字段元组，哎，我们说每一行数据吧，每个肉它的一个有界集合，我们要处理的一条CQ，啊，查询的针对的这个数据集都是有限的。而流处理呢？流处理针对的是无限的蓄力，所有的数据是源源不断到来的无休无止。然后接下来我们要考虑这个查询query对于数据的访问。它是一次性的，能拿到所有完整的数据吗？啊，那对于CQ而言，当然是可以一次性获取到的，那对于流数据呢？数据是源源不断来的嘛，当然就必须持续的等待数据输入，没有办法一次性的访问到所有数据。
04:01
那最后这一个当前的CQL查询啊，到底什么时候终止呢？对于关系型表或者说这个CQL查询而言，那其实就是说我们所有的数据集已经是线程放在这儿了，我们执行当前的这个CQ查询，得到固定大小的结果集之后，哎，那就结束了一次计算得到结果完事儿啊，这就是我们所说的一劳永逸的过程，一锤子买卖。那如果要是流处理呢，流处理就永不停止，如果我们要进行查询的话，哎，那一旦要是数据发生更改，来了新的数据，那就相当于我们最后查询的结果集也要发生变化啊，所以现在的数据是源源不断到来的，那当然这个查询也就会永无休止啊，这就是流处理跟关系仪表里面进行查询的最大的根本性的不同。所以我们会发现啊，呃，CQ本身就是针对这个批处理设计的，这跟刘处理呢，可以说是天生八字不合啊，所以现在我们在flink当中。
05:01
设计了这样的table API和CQ，就是要使用CQ去进行流处理的处理转换，哎，那底层它又是怎么去做的呢？所以接下来我们就深入的探讨一下流处理里边表的概念和查询的概念。首先我们根据之前的分析啊，我们已经知道了，在流处理里边所有的数据它是源源不断到来的，哎，这是一个数据流，那如果现在我们想要把这个数据流转换成一个表的话，哎，那很显然就是每来一个数据，这个表就会增加一条数据嘛，那后面每来一条数据，后面就再增加一条数据，所以我们看到这张表它不是固定的大小。这张表是会不停的增长，不停的变化。所以我们看到啊，在link这样的流处理系统当中啊，我们定义出来的表，它不是静止不变的，而是不停的动态变化，所以我们这里的表table。
06:00
就叫做动态表dynamic。它里边的数据，这张表里的数据呢，会随着时间的推移而不停的变化啊，一般来讲呢，就是会不停的增长，当然了也有可能是做了一些更新操作，那要看我们具体执行的那个查询转换了啊，其实这个动态表的概念，我们说在传统关系数据库里边呢，已经有所体现了啊，我们知道在关系数据库里边对表做的一系列的啊，Insert update delete啊，各种各样去进行增删改这样一些操作的结果，诶，那其实是会改变我们数据库里边表里面的数据的，哎，那如果说我们想要直接以当前表里的数据去记录当前我们执行的操作的话，那显然是不可能的啊，我们必须要记录到底发生了什么样的操作，这就是我们所说的更新日志流啊，就到底你干了什么事啊，到底是增加了什么数据，然后更新了什么数据，删除了什么数据，那如果说我们保存了当前这张表，在某一。
07:04
时刻的一个状态，那就是当前这张表里边到底有哪些数据，我们可以说它这就是一个快照嘛，Snapshot，然后接下来呢，我又知道针对这张表的更新日志流啊，就是基于这张表做了哪些增删改的操作，那接下来其实就知道啊，就知道随着时间的推移，这张表到底会发生什么样的变化。啊，那所以在很多这种关高级的关系数据库里面啊，比如说像这个Oracle DB two啊，他们里边都有对应的这样一个概念，叫做物化视图啊，它其实就是可以缓存C9查询的结果，它的更新其实就是不停的处理更新日志流的过程啊，那这个概念我们就会发现啊，跟flink里边的动态表其实就是一致，Flink的动态表就借鉴了物化视图的概念。啊，有了这样一个基本的动态表啊，我们说所有的数据输入进来之后，源源不断的到来，哎，那首先它转换成的这张表就是不停的增长，不停的增长。
08:06
然后呢，我们基于这张表又要去定义一个CQ查询，诶，那这个CQ查询我们说它针对这个表不停的变化的话，这个CQ当然也要不停的把这个结果集进行更改，也就是每来一条数据，这个表变了之后，CQ就应该要重新执行一遍，所以这就是我们说的啊，当前的这个C查询，如果针对动态表，针对流处理去进行查的话。他就永远没有停止的时候。只要数据一更新，我就要重新执行一遍，那当然了，最后得到的结果集也是在不停的变化，当然这个变化就有可能是追加，有可能是更新啊，那所以我们看到啊，这个过程当中，CQ永无止境的在做查询，我们就把这个查询的过程叫做。持续查询。而持续查询的结果呢，同样也会是一个动态表啊，这样的话，我们就把这个流处理里边表和CQ查询的概念完全的贯穿起来，所以我们会发现啊，在这个过程当中，流里边每来一条数据都会触发一次我们当前的CQ查询操作啊，那所以可以认为啊，每一次查询的时候呢，都是由数据流里的事件来去触发的，那触发的时候呢，相当于是对于我们当前输入的这个动态表做了一个快照，就把当前所有的数据。
09:29
提取出来固定大小的有限数据集，做了一个批处理，得到的结果呢，哎，就是当前动态表的一个更新结果。所以我们会发现啊，就是在这个数据不停到来的时候，如果连续不断的针对当前输入动态表的这个快照进行一个持续查询，哎，那就相当于就像动画一样把这个连贯起来了啊啊，那得到的这个动态表也就在不停的变化，这就是流处理的过程，所以我们看流处理跟表跟CQ就可以用这种方式进行连接和转换，所以我们看如果总结一下的话，持续查询的步骤就是这样的，首先哎，我们输入的是数据流源源不断的来，然后呢，这个流需要被转换成一张表，这个表是动态增长的，哎，正常来讲这个就是不停的追加，然后接下来呢，基于这张表定义的一个CQ查询，它就是要持续执行的，每来一个数据就要去执行一遍啊，这就是我们所说的这个持续查询，它会生成一张新的动态表。
10:31
那最后基于这张新的动态表呢，我们又可以再把它提取出来，生成对应的这样一个流，当然这个流的话，有可能只是追加的一个流啊，不停的追加这样一个流，那就直接to STEM转换就可以了，那如果要是说中间出现了更新操作的话，那我们得到的就应该是更新日志流了。这就是所谓的动态表和持续查询的概念，在CQ当中，这两个概念非常的重要。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（135/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

135_第十一章_动态表和持续查询

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐