文章/答案/技术大牛

发布

首页视频70_Hudi集成Flink_核心原理简要回顾

70_Hudi集成Flink_核心原理简要回顾

2022-12-022022-12-02 16:02:21播放46

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/70_Hudi集成Flink_核心原理简要回顾.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们回顾一下flink跟忽底集成时候的一些核心原理，第一个呢，就是去虫啊驱虫，那忽迪的驱虫分两步啊，第一个呢，它写入的时候是是不是要斩P对吧，它是不是有8Y的长，还有长buffer对不对，他在斩buffer的时候就会去虫了啊，另外就是写入的过程当中会做一个去虫，这个根据什么呢？根据咱们的index，还有咱们的那个record key。这个前面都聊过的，咱们简单说一下就行，还有一个什么呢？预合并字段啊BY啊，我们当时说了，如果就索引找到record key对不对，发现record key相同，那这个时候会比较预合并字段这个值大的啊，就以谁为准对吧，就相当于说实现一个覆盖效果了，所以不存在说就呃也不是不存在就这样是不是就是一个驱虫的效果呀。那么愈合并字段不指定，是不是就以插入的顺序谁后插以C为准是吧？
01:11
你看这个字段为可选，如果没指定，会看是否有TS，如果有TS就自动备选，如果没有，没有指定，而且也没有TS，则为处理的顺序啊，这个是新老消息的去重。另外呢，这个是展消息阶段的驱虫，呃，它将buffer发送给这个write的时候，可以执行一次驱虫啊，它就通过一个payro的接口。保他自己其实也一样，也是通过这个啊，他保留字段较大的消息啊。它是单纯在flink自己内存的一个计算啊，在同一个并行度里边啊。也就是说前两个都是一一回事儿啊，只是从不同的角度给你跟描述一下。
02:04
另外呢，就是后面的这个写pack的增量消息的去重，呃，我们说每写一个pack都会有一个，都会有一个新的park，呃，就是老的park跟新的一些数据的默局对不对？那这个时候呢，增量的数据我们前面也聊到了，增量会放到哪里啊，放到一个可刷写可溢写的慢和结构里面啊，这个是在内存，也就是说存不下它就会刷写啊，它是一个内存级别的所引，呃，增量数据如果没有提前去重，那么key的后来消息会覆盖原先的消息，你看它是map吗？对吧？那它的key就是，其实就是什么record key啊，Map的key就是我们指定的record key组件啊，那map结构你put不就是覆盖吗？也就是说这边也有一个去虫啊，那接接着往后呢，他会扫描这个base啊，PA会的文件，会不断的查看索引是否跟这个老文件是否有相同的key，如果有。
03:09
他就会。先来说判断还是判断什么，保留哪一条消息，还是根据谁啊啊默认的pay漏的就是按照咱们的pre字段啊，除非你指定为其他的啊，就是这个paylo的，咱们一般还是啊默认的这种方式的话，还是还是这个意思对吧？啊也就是说C，呃，我们这个。增量合并的时候也是根据这个玩意儿来了，其实说了这么多都是一回事啊，就是这个东西去虫最核心的东西。那哪一种表都有啊，另外就是跨分区消息的去重，那么要强调的是不同的分区消息是不去重的，这是默认情况下啊。呃，相同的key，如果新的消息换了分区，那么老的分区消息仍然保留。
04:07
这个就是有一个问题啊。啊，什么意思呢？原先比如说我是EAB，然后我按照这个字段做分区，后面呢，这个值改了变成一，因为分区字段的值变了，那这条数据是不是要挪到这里去啊，那那就出现这个老分区，A分区有一个一，B分区也有个一啊这个其实已经是过期失效了，对不对啊，但是如果我们开启一个全局索引的话，那是可以处理这种。呃，分区字段变更的去重啊，它会先往老的part发一条什么删先删除，然后再往新的写啊，就这么一个原理啊。是P於去虫。嗯。那表写入的原理我们其实也再三强调了，那么大家看这张书里的图，呃，先是读取输入之后呢，呃要把它写到户底里面，接下来要经过什么BUCK3呢？这些咱们在沃UI是不是经炒看的啊，我们说写的时候它是不是按照bucket去展消息对吧？64兆嘛。
05:21
那可能有多个对不对，完了buck完了之后是不是要丢给这个right。对吧，那这个right之后可能啊，看我们有没有设置一个异步的压缩，还有一还有还有另外一件事就是清理仪，那如果异步压缩开启，它就会先有一个调度的计划阶段，还有真正执行的阶段啊。那执行，呃，执行完之后是不是一个呃，Think阶段的对吧，Think commit，呃另外呢，就是另一块就数据清理，那这个流程大家应该是很清晰的，那这边就分三块详细的介绍一下，一个是数据写入，诶就上面这一大段啊，从八的SIGNON1直到string writer这里啊，不考虑压缩，这时候呃，你看先封装数据成护体实体，接下来呢，就是分配这个桶了啊，就给数据分配写入的文件地址，若为插入，则为大小最小的fire group的fair ID内进行插入，其实就是什么？这个就我们前面讲的，能蹭就蹭对不对啊，能蹭就蹭在此文件的后续写入中。
06:32
同一个fire group fire ID是不会变的啊，并且根据提交时间显示最新版本啊，其实就是啊，再啰嗦一遍，再啰嗦一遍。行吧，如果我一更新又怎么样？前面咱们都聊过了啊，我也不想再多讲。呃，另外呢，就是咱们这个who d stringri写的时候呢，它是先有一个缓存的设置，这个超过这个flash size就是1G啊，那或者是做缺point时刷，咱们前面刚刚聊过，就常见问题里面啊，说一直看不到数据，就是这个刷时机嘛，啊这是其中两个，还有一个是8Y的64兆对吧，三三种条件，那这里有一个协调器，这个主要是跟writeer进行一一些交互啊，处理check poon的事事务这些事儿啊，而且呢，提交我们所谓的instant。
07:27
啊，并生成什么什么，就是一个秘书嘛，这个东西啊，协调器一个秘书啊，中央空调啊。啊，这个也不啰嗦啊，那压缩这个咱们也知道主要是用在什么MR将log合并成趴回的啊，那么它会便利分区下最新的帕跟其对应的log进行合并啊，那这个东西也不用啰嗦了嘛，那这策略有四种嘛，啊前面也都介绍过了啊，我我也不不讲了，那数据清理是咱们前面没怎么讲的，但都知道会清理，呃，那每次我们往库里写数据都会可能生成一个新版本的数据文件，对吧？啊，如果是Co，如果是Mo呢？
08:10
是不是会做一个compassion，呃，对吧，那根据咱们写入插入的频率，咱们这个文件的版本数可能一直在增长，对吧，从第一个版本一到后面一直差，都指不定增长到1万个版本以上了啊，那我们历史记录不可能无限期保留，它会有一个服务来回收旧的数据，就是这个数据清理服务，那它的清理策略呢，官网都有啊，一般的清理策略是什么？保持最新的文件版本号保持几个啊。除了这个之外，全干掉啊。那就是作业图啊，作业图那在最后就简单说一下读的一个原理啊，咱们读的时候是不是有一个spirit monitor啊，就读忽地表的话，咱们select去s select from护地表的时候啊，没有注意看对吧？呃，那其实就是有一个东西啊，如果是互列表，它会开一个什么切分的monitor算子，每隔大家注意它是怎么实现的这个读啊，每隔N秒监听时间线上的变化，将。
09:17
变更的instance封装为文件片啊，另外呢，就是分发log文件的时候会按照什么fire ID进行key，这个是后面版本加的啊，以前不会做这个T啊。保证同一个fire group下的数据文件都给一个task处理，这样的话我们处理数据就是什么有序啊有序，而且更加的集中了每个人负责啊，同一个文件片行吧，这个就简单提一嘴而已，就是主要想强调的是这个东西。主要是想强调第二点。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（70/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

70_Hudi集成Flink_核心原理简要回顾

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐