文章/答案/技术大牛

发布

首页视频157_第十一章_SQL客户端

157_第十一章_SQL客户端

2022-12-022022-12-02 16:02:30播放32

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/157_第十一章_SQL客户端.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
目前为止，我们已经了解了table API和link CQ当中几乎所有的用法，哎，我们其实会发现啊，只要使用了这套API，那就相当于我们不需要考虑更多更复杂的link底层流处理的情况，而是把它看成一个传统的关系数据库，我们创建表，然后基于它去进行CQ查询转换，直接写CQ就可以完成底层的流处理程序了。诶，那所以就为很多传统的数据工程师，数据分析师提供了非常大的便利啊，因为我们知道啊，很多数据工程师其实可能对于编程语言Java scalela编程语言并不是特别的熟悉，他最熟悉的呢，就是对于数据库的操作就是CQ，诶，那所以这种方式就为他们提供了很大的方便。但是我们发现啊，即使是这种方式，整个这个代码我们还是要放在一个Java的类，或者是scale拉的对象object当中的，那在这个写入的过程当中，CQ，尽管大部分流程我们都是以CQ去实现的，这个CQ呢，还是要内嵌在我们底层的一个方法调用当中，诶，所以最后写完的程序我们还要进行打包，然后提交到集群上才能够真正的运行起来。
01:13
我们在就想到了，那有没有更加方便的一种方式，就不要跟编程语言有关系了，诶，我们直接就像之前操作这个数据库一样，打开一个页面，直接写一句CQ，就可以把我们定义的这个操作流程提交到集群上去执行呢，确实是有这样的方式的啊，在flink当中就给我们提供了一个非常好用的也非常好玩的小工具，就叫做CQ客户端。那这个CQ客户端呢，其实就是一个命令行的交互界面啊，所谓的这个c Li，我们可以在里边非常容易的去写各种CQ查询，就像使用MYCQ一样啊，就像打开MYCQ的那个交互页面一样啊，诶，那这里边就相当于我们可以直接抛开Java或者skyla这样的代码的编写，直接就在这个命令行工具里边去输入一行一行的CQ，就可以把我们所有的流处理作业的逻辑定义出来了啊，那接下来我们可以简单的介绍一下到底怎么用这个客户端，想要使用CQ客户端呢？诶，那首先我们需要启动本地的集群环境啊，先把这个flink集群要先提起来，然后接下来呢？啊，启动CQ客户端的命令非常简单，就是使用并下面的CQ client这样一个启动脚本啊，这个我们之前在flink本身的安装目录下边啊，它里边本身有一个并目录，这个下边呢，就有很多我们可以去执行的脚本命令，最常用的。
02:39
当然就是这里的flink了，我们如果要想去提交一个作业的话，直接flink wrong就可以，呃，那除了这个之外呢，还有一些我们其实大概也知道它是干什么的啊，比如说哎，这里有雅安session，基于这个雅恩的部署提交，那那还有这个单独的task manager job manager啊，以及stand job等等啊，单作业的提交模式，这些都比较简单，我们现在要用到的呢，是一个CQ的客户端，所以其实就是这里的CQ client.sh啊，所以在这里可以直接调用它。
03:11
我们看现在其实我并没有在本地起集群，所以这个客户端呢，它是可以单独运行的，但是你起来之后啊，在里边想要去提交作业的时候，那当然就得有集群环境了啊，这个相当于只是我们提交作业的一个渠道而已，我们看提起来之后啊，这里就有一个非常大的松鼠logo啊，弗林克的这只小松鼠就体现在这儿了，然后这里写着它的名字叫弗link CQ client啊，当然现在还是一个better版，还是一个测试版本，所以现在还不是特别的完善啊，未来的版本里边这个功能肯定会越来越完善。接下来呢，我们就看到了有一个这样的提示符，说明进入到了一个交互式的命令行界面来啊，那么在里边呢，这个操作就跟我们进入到MYSQL的命令行界面是一样的啊，比如说我们敲一个set，就可以看到当前环境里边的一些参数设置啊，我们看这里边最重要的设置呢，其实都是跟当前的弗link集群有关的。
04:06
默认情况下啊，LIC其实就是读取我们集群配置文件里边flink com.ya某那个配置文件里边的数据，然后进行加载的，比如说我们看到这里边啊，有这个job manager的memory，对应的这个配置有task manager memory process size啊，对应的配置都有，另外还有job manager rpc，它的主机名和端口号，我们配置的是韩度102和6123。然后下面还有两个非常熟悉的经典配置，一个是集群的默认并行度parallelism.default默认是一，另外还有一个每个task manager默认的slots数量number of task slos默认是一啊，那所以这里面如果想要做其他更多的环境变量的设置的话，也可以在这里使用set命令去做一个配置啊。那这里我们可以简单的说一下，最重要的这个需要配置的环境是什么呢？呃，其实主要是运行模式。
05:00
设置的这一项就叫做execution runtime mode啊，这也就是说我们到底是以流处理模式还是批处理模式去进行运行啊，类似的对应着我们就是提交作业时候啊，指定的那个运行模式的参数啊，那所以在这儿我们可以直接用一个set命令来做一个设置，默认情况下当然就是流处理模式了啊，就是streaming，如果说想要使用批处理模式的话，把这个改成batch就可以了。然后除了这个运行模式之外呢，还有一个执行结果模式，所谓执行结果模式其实就是在这个CQ客户端上面啊，我们做一条查询之后，直接就可以拿到它的返回结果，那这个返回结果以什么样的形式来表现呢？啊，那最经典的方式当然就是table了啊，那table就是直接返回的，就是以逗号分格的每个字段我们查询出来的结果都输出出来，然后还有changelo changelo我们就更加熟悉了啊，像之前我们在控制台打印输出的时候啊，直接to changelo stream转换成更新日志流，那在这个输出的数据里边，每一行数据前面都会加上一个啊，表示到底是插入还是删除或者撤回这样的一个标记，一个符号，哎，那所以就是数据前面会有一个加加减减这样的前缀啊。
06:12
除此之外呢，另外还有一个非常经典的模式，那就是所谓的table AU table AU就是我们在这个MYSQL里边经典的那种可视化模式啊，输出的结果呢是一张表，它是以这个虚线框直接把它框起来的，然后上面是我们的这个表头的属性名，然后下面每一行的数据都列在里面，这就是所谓的执行结果模式，我们配置的时候是c client execution.result-mode后边加一个引号把它引起来啊，指明到底是table还是lo还是table AU就可以了。哎，那除此之外呢，还有一些非常典型的配置项，比如说之前我们说过的啊，状态生存时间TTL啊，就是这个状态啊，如果空闲多长时间之后就要清理掉了，为了释放系统的资源啊，那这个时候呢，就可以配一个TTL配置的选项，就是table.ex e.state.ttl里边配置一个时间，一个毫秒数。
07:09
啊，这里其实我们能配置的选项特别特别的多啊，那其他的内容呢，我们可以到官网上去做一个详细的查询啊，那除了在命令行里边可以直接用set去做一个配置之外，我们也可以更改CQ客户端的配置文件啊，这个配置文件就叫做CQ c Li default.yama也是一个yama文件啊，那在这个压ma文件里边呢，可以配置的东西就会更多更强大，甚至我们可以在里边直接去预定义表和函数，也就是说像我们连接到外部系统的那些连接器表，一开始就可以在压录文件里面直接创建出来，这样的话，我们在CQ客户端里面就直接去执行对应的查询语句定义处理逻辑就可以了。所以已经有了基本的一些配置项和预定义的表，那接下来我们就可以去执行CQ查询了啊，这里的操作其实就跟my CQ Oracle这些关系数据库完全一样了，比如说啊，就是像之前我们那个最简单的进行聚合的例子啊，首先我们读取文本文件里边的数据，创建一个连接器表，那么在CQ客户端里面同样可以执行这样一句d dl create table啊，比方说我们这个叫做英文table里面对应的这个字段定义出来time Sam，因为是一个关键字，所以我们加了反引号，然后后边一个with连接器表，Connector file system，从文件里边去读取当前的数据，读取出来之后呢？啊，那相当于现在就已经有了一个even table了，那接下来当然就是可以去直接执行对应的查询操作啊，那在这之前呢，我们可以再去创建一个输出的表，那这个输出的表同样也是一个连接器表，我们看现在是连接器connector是print啊，那这个所谓的。
08:53
连接器表其实就变成了一个控制台打印，最后的输出结果是在控制台打印的，那最后我们执行的操作呢，其实就是要select我们想要的字段，比方说user，然后看看URL，统计一下每个用户他点击访问URL的次数，从这张表里边取出来，而且按照user去做一个group，做一个分组，得到的结果呢，直接insert into result table，哎，这个过程其实跟我们就是在MYSQL里面的操作可以说是完全一样。
09:24
这就为一些不太熟悉Java scla这样的编程语言的数据工程师提供了非常大的方便啊，我们就直接在里边写CQ就可以了，这里需要多注意的一句是，就是如果说我们在这里执行了一条这个CQ的话，那其实本质上来讲是在集群上提交了一个flink作业的，那这个操作可能会比较轻量级，那导致我们频繁的提交作业就有可能出现一些问题，所以现在呢，Fli CQ还是把这个客户端作为一个测试或者说实验的这样一个场景啊，那具体使用的过程当中，一般我们还是需要把所有的代码写好之后，然后打包提交到集群上面去执行的啊，用这种方式呢，我们可能就是做一些非常简短的测试啊，把逻辑跑通就可以了，这就是关于link CQ的客户端。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（157/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

157_第十一章_SQL客户端

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐