文章/答案/技术大牛

发布

首页视频159_第十一章_连接到Hive

159_第十一章_连接到Hive

2022-12-022022-12-02 16:02:30播放41

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/159_第十一章_连接到Hive.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
关于连接到外部系统呢，最后我们再来单独讲一下flink跟hi的连接啊，那我们知道啊，阿帕奇hi它是一个基于哈杜的数据仓库的基础框架啊，那可以说现在啊，我们如果要进行海量数据的离线分析的话，Have基本上就是一个标配的核心组件了，那在have里边呢，我们知道它支持类CQ的查询语言啊，有时候我们把它叫做have CQ或者叫hiq啊，这样的话我们就可以非常方便的对于数据进行统计分析和处理。所以现在have可以说是分析存储啊海量数据集的唯一选择，那have的主要缺点呢，也非常的明显啊，它能处理的数据集非常的大，但是呢，查询的延迟比较高啊，所以一般情况下都是应用在离线分析的场景下边。而我们与之对比呢，Flink跟它就刚好相反，Flink的特点就是实时性特别的强，主要用在实时的流处理里面，哎，那所以如果说我们把flink CQ跟have如果能直接结合在一起的话，那就相当于可以直接使用一整套CQ，既可以获取到非常好的实时性，又可以进行超海量数据集的一个保存和分析了，诶，那能不能做到这一点呢？呃，现在的目标就是要做到这一点，Flink跟have就要进行一个集成。
01:21
他们的集成方式比较特别，所以我们要单独的拿出来说一下啊，呃，主要就是因为flink里边提供了一个叫做haveve catalog，就是所谓的haveve目录，哎，那如果说flink我们指定当前所使用的catalog是have catalog的话，那就允许我们使用have的mato来进行flink原数据的管理了，哎，那这样有什么好处呢？啊，那我们知道mato本身它是一个持久化的目录，哎，所以如果使用了have catalog的话，就可以跨会画去存储flink的原数据，也就是说如果我们在这个catalog里边创建了一张呃，连接到卡库卡的表，或者连接到ES的表，诶，那么他们的原数据就会持久化在ma store里。
02:06
对于不同的flink作业提交而言，哎，那就不需要再重复创建对应的这个连接器表了，哎，所有的那个表的信息都在当前的开lo里边，直接拿出来用就可以了。那另外还有一个呢，就是如果我们使用了have catalog的话，Flink就可以直接作为读写have表的替代分析引擎啊，因为我们知道have本身啊，它是可以引入其他的一些组件作为自己的分析引擎的啊，那一般我们常用的可能是Spark跟have的一个结合，那同样flink也可以作为一个替代分析引擎来跟have结合在一起，哎，那它的结合的方式就是通过have catalog。这样一来的话，在have当中我们进行批处理就会更加的高效，而且呢，也拥有了去读写流式数据的能力，哎，这种方式的结合，这就使得我们如果要是想要获取这个数据，仓库的实时分析应用就成为了一个现实啊。所以现在比较火爆的实时数仓的概念也正是基于这些特点发展出来的。
03:09
这里需要强调一点的是fli跟have的连接，目前只有blink版本的计化器planner才提供了对应的支持，诶，那所以我们在使用这个table API或者link CQ的时候呢，必须要选择当前的计化器是blink啊，当然了，我们现在版本默认的计化器不选择就使用的是blink，所以一般情况我们不要单独进行配置就可以了。好，那首先如果想要去跟have进行集成的话，还是先要去引入依赖，那have它的各版本特性变化比较大啊，所以目前link支持的have版本也是比较有限的，而且是分开的啊，就是have一点几的版本里面支持的是1.0~1.2.2，那二点几版本呢，呃，支持的是2.0~2.2.0 2.3.0~2.3.6啊，另外还有三点几的版本，支持从3.0~3.1.2。
04:04
啊，那所以这个还跟弗link之间的集成的，这个过程还不是特别的完善，我们现在也应该是在不停的发展变化的过程当中，我们可以随时关注官网发布的信息。然后因为我们考虑到have是基于哈杜op的组件，哎，所以我们使用have的连接，首先需要提供哈都相哈杜的相关支持啊，呃，这个主要就是在环境变量里边去配置一下海class pass，配置好了就可以了。接下来呢，在flink程序当中要引入flink跟hi的连接器相关的依赖，Flink connector have。除了连接器的依赖之外呢，还要引入have本身相关的依赖，大家就have ex e把对应的这些依赖引入，一般建议啊，不要把这些依赖直接打包到我们结果下文件当中，而是在运行时的，而是在运行的集群环境里边。哎，那我们可以被不同的have版本去添加不同的依赖支持，把对应的那些支持的类库啊，支持的包放在我们集群环境的那个library内部目录下边就可以了。
05:09
好，引入了相关依赖之后，那下一步就是可以直接连接到have了，我们说连接到have是通过在flink程序当中去设置表环境中的catalog，把catalog设置成have catalog通过这个来实现。这里我们可以看一个代码当中的具体应用案例啊，哎，那就是首先我们先创建一个当前的表执行环境，注意这个表环境里边必须使用的是blink的plan啊，默认就是这样啊。然后接下来呢，我们要去new一个have catalog，这个have catalog里边需要有几个参数，首先一个是当前目录catalog的名称，比方说我们就叫做my have，然后呢，要指定一个default database默认的数据库啊，我们就叫做my database。后面呢，还应该有一个have对应的配置项的目录啊，那当前这个have con director，把这三个参数传入之后，就创建出了一个have catalog的实例对象，接下来呢，我们就可以在当前的表环境当中去注册这个catalog，诶，所以我们应用的就是统一的啊注册目录的这个方法，Tablena去调一个register catalog，然后把当前我们定义好的这个have catalog注册成my head。
06:25
然后接下来我们就要使用我们注册好的my have作为当前会话的catalog，这样的话，接下来我们就可以跟have连接在一起去进行相应的CQ操作了。当然了，这是我们在这个flink代码当中啊，使用这个skyla语言在程序里边去设置了这个catalog，那我们也可以直接启动CQ客户端，在QQ客户端里边直接去create catlo，指定my have，然后用一个with子句指定它的type是什么，然后have对应的配置目录到底是什么，诶这样的话，我们同样可以创建一个have catalog，后边我们use这个catalog就可以了。
07:06
这是第一步，我们创建出了have catalog相当于创建了到have的连接。然后接下来呢，我们就可以在CTO当中啊，去创建一张连接到have的表，然后就可以去进行查询转换了，理论上是这样，但是我们知道啊，对于这个have而言，它是有单独的一整套查询语法的，它跟CQ比较相似，但是呢，又有很多自己独特的特点啊，那所以我们一般说它是类CQ的一种查询语言啊，我们把它叫做have CQ可以认为它是CQ的一种方言。所以这种方言我们在使用的过程当中，跟标准CQ或者说flink CQ的语法就会有一些出入，所以呢，为了提高兼容性，Flink CQ给我们提供的一个非常有趣而且强大的功能，那就是可以去设置所谓的CQ方言哦，就是说我可以指定当前我要用的这个语法呀，到底是have CQ的语法还是flink CQ啊这种标准CQ的语法，所以这样的话，我们就可以根据他们自己不同的语法去创建表，去执行一些查询操作啊，所以在这个当中设置也非常简单啊啊。
08:15
那最简单一种方式就是我们直接使用set命令，那就是table CQ-dialect指定成have，把当前的方言指定成have。呃，那另外呢，我们也可以在这个配置文件里边，CQ c Li defa.ya某里面通过configuration这个模块来配置table.cq dialect指定者态。这是在CQL当中的设置，我们也可以直接在这个代码啊，在Java或者skyva代码当中调用table API table env去获取当前的配置，Get con FA，然后去set CQ dialect指定成have就可以了啊，那除了have这个方言之外呢，另外还有一种方言就是default，其实我们知道default就是默认的原生标准CQ的这个方言啊。呃，我们可以认为这个default相对于方言而言就是普通话啊，我们平常用的这个Li CQ里边默认使用的都是标准CQ的语法。
09:13
好了，有了这些设置之后，接下来我们就可以去读写汉表了啊，有了这种方言的支持，那其实我们就会发现啊，就可以直接使用在have CQ当中的那种方式去创建一个连接到have的表达，所以我们看到首先可以把当前的方言设置成have，接下来呢，Create table have table，我们看到这里的语法就跟have CQ里边的写法是完全一样。这里我们指定了have表的对应的字段，而且设置了通过分区时间来进行触发提交这样一个策略，设置了这样一张表之后，哎，接下来呢，我们又可以把当前的CQ方言设置为default，也就是标准CQ的语法，然后去创建一个到卡夫卡的连接器表，所以我们就想到了现在就可以从卡夫卡里边去读取数据，然后进行查询转换，得到的结果呢，最终再写入到have table里面去。哎，所以我们看到这样的话，我们就可以把整个的流处理程序使用不同方言的表述全部用CQ表达出来了。
10:20
啊，这个过程就会非常的方便，非常的简单，这是关于到have的连接。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（159/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

159_第十一章_连接到Hive

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐