文章/答案/技术大牛

发布

首页视频50_Hudi集成Flink_sql-client_流式插入

50_Hudi集成Flink_sql-client_流式插入

2022-12-022022-12-02 16:02:21播放47

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/50_Hudi集成Flink_sql-client_流式插入.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，我们刚才啊，呃感觉像，因为我们插入的是insert in into这么几条固定的数据，咱们还体会不到flink使用流式，诶我们的一般的场景用flink是不是用流处理啊，对吧？那比如说我们的数据源是个卡夫卡，那我们要将卡夫卡的数据写入，忽底怎么做呢？那我们是不是将卡夫卡映射成为呃，Flink的一张表对吧？然后将护理表映射为另外一张flink表。那我们是不是应该直接做insert into表二对吧？Select from表一，这样的话是不是对于咱们用flink来讲，是不是只要执行这么一个语句，那卡夫卡源源不断的会有生产者发送数据过来，那flink就源源不断的去消费，源源不断的消费，源源不断的插入，这不就是一个流市场景嘛，对吧？那现在为了简单啊。
01:02
我这边就用一个什么flink自带的数据生成器，而且呢，它是什么源源不断的生成，那我就指定为每一秒一秒生成一条，也就是说一秒一条要插入，一秒一条插入，一秒一条插入，那我们来观察和看一下啊，这是建的一张数据生成器的表，第二一个呢，是建一个忽底表，那我再建一张T2啊，那大家注意他们，你要插入的话，那最好字段要对应的上啊，字段要对应的上。嗯。好，还是MO2，而且大家看到我并没有指定什么，没有指定组件啊，那其实这个跟Spark当中一样，如果组件没有指定，它默认就是用的UUID啊，你不指定它就是UID啊，那把这两张表什么呃，建一下来粘贴好so tables。那现在就是要查询ST插入T2对吧，那接下来就简单了，我们直接嗯，Insert into t2，然后呢，Select新from t啊不是T啊ST好提交。
02:17
好，作业已经成功提交了，对吧？So has been successful是吧？刷新。那你看这里就是一个什么，呃，插入。那么如果大家对这个昼夜名字不舒服的话，那其实我可以给你搜一下啊，啊，Flink circle，呃，Job name。嗯，有一个参数啊，随便找啊是。呃，好像是pipeline name吧，我试一下啊，然后我把刚才这个做一会再试吧。嗯，参数名不知道对不对啊。
03:01
我确认一下啊，好像就是拍内。回头我确认完我写到文档里啊，让大家更用起来更舒服一点好，行了，现在应该已经在不断的插入了，你看这个时候这个作业就不会说什么finish了，因为我们数据源是无界流，它会源源不断的插入。呃，大家看啊，有一个S，然后呢，这接下来是who底模块了，一个bucket s啊，然后一个stream writeer啊流逝写，然后呢。Comp compassion的计划好执行compassion，再往下就是think对吧？提交，那么大家注意它这个compassion的交可要依赖于什么？Checkpoint啊，要依赖于checkpoint，那你在这里可以看到。好，那么接下来我们现在显示模式已经是TABLE0了，对吧，那我直接查就好了，现在的新from t2。
04:05
缩小一点。没有这么快查出来啊，那我们先来瞅一眼HDFS呗。好。嗯，诶，我路径没写错吧。我路径估计写的不一样啊，我看一下TP d test。哦，我写成蝴迪test了，对吧，那还是蝴dlink吧，没事，路径路径这个无所谓啊，那我们就到新路径看呗，啊敲错了啊，蝴d test，呃，T2好，那大家可以看到现在是不是都有什么，呃，点log。那我们看到这边搜狗客户端查询的结果，它并不是无界的，大家看到它只返回了98条结果，为什么呢。
05:01
大家还记得咱们的查询方式吧，查询类型是不是，第一种是什么？快照查询对不对？快照就是我们查询那个时候它的全量数据是什么样，这个时候就查出来，它是一个有界的结果，对吧？虽然我们插入现在是一直持续的一直查，但我们查是在这个时刻查了一下，那这个时刻是查到了98条数据这么多啊。那呃，那后续你能不能说诶，我实时的查询它的变更呢，实时查询它的增量可以，那个我们后面会介绍啊，我们会介绍一个叫流毒啊，Flink跟户体集成是支持流毒的方式的啊。啊，所以大家要明白这个为什么只有这样子啊。是一个呃，有借的结果集啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（50/78）

6分12秒

01_Hudi课程简介

690

10分41秒

02_Hudi概述_简介

630

9分53秒

03_Hudi概述_发展历史&特性

530

5分31秒

04_Hudi概述_使用场景

570

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

630

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

560

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

680

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

480

6分10秒

09_Hudi编译_执行编译命令&jar包位置

550

14分1秒

10_Hudi基本概念_时间轴TimeLine

550

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

460

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

440

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

470

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

610

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

620

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

460

7分40秒

68_Hudi集成Flink_离线Clustering

410

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

50_Hudi集成Flink_sql-client_流式插入

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐