文章/答案/技术大牛

发布

首页视频128_第十一章_表环境

128_第十一章_表环境

2022-12-022022-12-02 16:02:30播放34

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/128_第十一章_表环境.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经了解了table API和CQ的基本程序架构，那接下来呢，当然就是按部就班，一步一步来去进行详细的讲解了。首先第一步我们在真正的进行这个表的创建和转换之前啊，还是要先来创建一个环境，我们现在要创建的呢是表执行环境，这就是前面我们所说的table environment。啊，那其实我们知道对于flink而言，已经有了一个流逝的执行环境，Stream execution environment，那接下来基于它呢，又要创建一个表环境，它的意义在哪里呢？其实我们知道对于flink本身，它是一个流处理的引擎，流处理的框架，那本身数据流和表和table在结构上本身是有差别的，哎，所以如果说我们想要使用table API或者CQ。那就需要这样的一个单独的执行环境来对于流和表进行转换和处理，哎，那当前我们这个表环境主要负责干什么事呢？主要就是这么几条了啊，负责注册catalog和表，Catalog呢，就是我们所谓的。
01:10
目录，哎，那这个概念跟标准CQ中的概念是完全一样的啊，主要就是用来管理所有的原数据啊，就是所有数据库和表对应的原数据，那我们可以注册这样的catalog，另外呢，还可以注册表，注册table，在这个环境里面干注册的这些事情，注册之后就可以去进行对应的使用了。然后呢啊，在基于这个表环境还可以去执行CQ查询，前面我们提到的啊，所有的这个CQ相关的操作，我们看到都是基于table env去进行调用啊，那另外呢，还可以去注册用户自定义的函数，也就是所谓的udf啊，我们可以在CQ里边去进行灵活的使用。最后还可以处理data stream和表之间的转换，就像之前我们调用的from date stream和to date，从流里边读取数据去转换成表，以及把表再转换成一个流，都是基于当前的表环境去进行的转换。
02:10
那关于在代码当中的使用呢？前面我们也看的非常的明确了啊，最简单的方式其实就是先去创建一个stream execution environment，然后去调用stream table environment的create方法，把对应的这个比如是执行环境传进去啊，作为参数传进去得到的就是一个表环境了啊，那为了更加明显的去进行测试啊，我们还是单独的去创建一个新的object。一个SC的object，我们主要是测试通用的API，我们就叫做common API test。没方法写出来，首先我们是要测试这个创建表环境。啊，那这个其实是有两种方式啊，一种就是前面我们提到的。还是先来创建一个我们所熟悉的stream execution environment。
03:03
先把它get出来。叫做env啊，那同样还是啊，不是一般性的，先把这个全局的并行度设成一，基于它呢，调用的是stream。Table environment的create方法，然后里边只要把上面我们的这个流失执行环境传进去就可以了，得到的就是一个table en。表值性环境，哎，我们可以看到这个create的方法啊，它本身其实是有多种传参的方式的，最简单的方式就是直接传一个STEM execution environment啊，那另外呢，除了传入这个stream execution environment之外，后边还可以跟上一个配置项，一个setting或者一个table con啊，那这个我们稍后再说，到底怎么样去使用。那有了这种方法呢，其实我们就看到接下来要做的转换就都基于当前的表环境去定义表、注册表，然后去进行转换处理就可以了，但这个过程呢，简单归简单，哎，那有一个非常大的问题，就是还是离不开我们最为熟悉的这个流逝的执行环境stream execution environment啊，那我们就想了，能不能有一种方法让它跟这个流市执行环境啊彻底脱钩，我们就根本不要有之前的这个流失执行环境了，上来之后，诶，我直接就把这个表环境创建出来了，后边基于表环境就去注册表，创建表，然后进行转换了，好像看起来就跟data stream完全没有关系了，能不能这么做呢？
04:36
也是可以的啊啊，那这种方式呢，我们就不再使用stream table environment了，使用的现在使用的这个类是就叫做少了一个strip，就叫做table environment。啊，我们这里需要去引入对应的这个类啊，然后去调用它下边的一个create方法。然后我们看到这里的create呢，要传的就不再是之前的流失执行环境了，它只需要传入一个environment settings这样一个配置，或者是configuration，这里我们可以点进源码里面去啊，我们看到这是一个静态方法，最简单的传参方式就是直接传一个environment settings。
05:17
那这样一个environment settings，一个环境的配置项又应该怎么样去创建呢？诶，我们在讲到了去new它的一个对象啊，但是点进去之后我们看到啊，这个类里边它的构造方法。是一个private私有的构造方法，哎，那所以接下来我们看怎么样去创建它的对象实例呢？哎，我们看到啊，下边会有一个它的build啊，那所以我们可以直接调它的一个静态方法叫new instance去创建一个它的build啊，这个builder当然是一个内部类了啊，创建一个内部类的对象，然后在这个builder里边，接下来，哎，当然里边就可以调用一个build的方法，哎，那构建出当前environment settings的一个对象实力啊，这就是我们所说的设计模式里边的建造者模式。
06:07
那对于这样一个build而言，它还能干什么事情呢？诶，我们看到这里它其实就能做很多对应配置项的设置啊，最重要的我们看到啊，其实就是可以指定当前所使用的计化器planner到底是什么？我们看到它可以调一个方法啊，叫做use blink plan，或者use old plan，这就是指定当前到底是使用老版本的计化器还是。新版本的啊，阿里内部给我们开放出来的blink版本的计化器，那老版本这个我们看到已经要被弃用了，所以默认情况下使用的就是blink，一般情况我们也不用单独去配啊，另外还有一个use any plan。那另外还有一个非常重要的配置项呢，就是下边的我们可以选择当前的执行模式啊，有什么执行模式呢？我们看到in batch mode，另外还有一个in streaming mode啊，所以我们说啊。
07:04
Flink本身是批一体的这样一个大数据处理引擎啊，那我们知道如果说啊，之前我们这个引入的是流式的执行环境的话，诶，那默认情况下我们应该执行的就是流处理了，诶那之前在调用这个data API的时候，我们所指定的是默认是流处理，哎，如果说想要以P处理的方式去执行的话，那可以对于当前的环境去指定一个所谓的runtime mode运行时模式啊，那这个执行模式的话，如果指定为Bach的话，相当于我们就是同样的代码可以去做一个批处理。那现在我们看到啊，如果说我们用这样一种方式，直接基于table environment去调它的create方法的话，很显然我们现在跟流式执行环境就没关系了，它是一个通用的表环境，那这个通用的表环境啊，到底底层是流处理还是批处理呢？哎，当然了，我们这里边流批一体吗？那最底层还是零处理，所以我们可以看到啊，默认情况下，这里其实我们看is stream mode啊，默认是处啊，所以默认如果什么都不配的话，就是零处理模式，如果我们想要使用P处理模式的话，那就调用这里的in Bach mode方法，把is streaming mode改成false就可以了。
08:20
啊，那把对应的这些配置项都配完了之后，哎，那最后我们再把这个builder啊，得到的builder对象实例调一个它的build方法返回一个。Environment settings对象，哎，这样的话就实现了我们这里想要传入的这个参数，哎，所以这里的话，我们用另外一种方式，我们可以把。这个叫做第一步的测试环境啊，第一种情况我们就是。直接基于流执行环境。创建。那第二种方式呢，啊，就是。传入一个。环境的配置参数就是environment settings，然后进行创建。
09:06
所以这里面我们首先得创建这个environment settings啊，调用的是它的下边的静态方法啊，Environment settings调它的前面我们说哎，New instance方法，先创建出一个builder的对象实例，然后接下来哎，我们看到啊，这就可以去调用这里边的啊in什么样的mode啊，我们可以inch mode，如果不调的话，默认当然是in stream mode了。那另外呢，我们这里还可以去要求我们到底use哪一个plan，哪个计化器啊，我们知道如果什么都不配的话，默认当然就是blink planner了。那最后呢，再调一个build方法，得到这样的一个settings，那后边呢，调用create方法的时候，把这个settings传进去。同样，我们也可以得到这样的一个table environment。那当然了，就是在陌生情况下我们会发现啊，这两项其实都没必要去配啊，那所以呢啊，有时候我们也就不用这种方式了啊，直接使用上面这种流失执行环境传进去create出来也是完全一样的。
10:09
所以在后面的代码当中，我们可能就怎么简单怎么来了。使用第一种方法也是正确。这就是创建表环境的过程。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（128/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

128_第十一章_表环境

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐