文章/答案/技术大牛

发布

首页视频18_Hudi基本概念_表类型_MOR表

18_Hudi基本概念_表类型_MOR表

2022-12-022022-12-02 16:02:21播放41

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/18_Hudi基本概念_表类型_MOR表.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们看第二种类型的表me read，也就是所谓的读时合并，那么大家注意它包含什么样的文件呢？第一，它可能有PA的文件，大家注意我的描述啊，是可能有。啊，可能有帕的文件，另外它一定会有一个基于行存的增量日志文件，也就是阿弗罗格式的，那么它具体的文件名呢，就会看到点log这么一个后缀啊，这个我们前面也是简单给大家看过，对吧？有一些点log，好，那为什么叫mor呢？那是因为它的合并在读取端，什么意思呢？诶，你看我现在是不是既有这个基本的列存文件叫回另外呢，还有每一次呃，新新增加的数据，比如说插入或者更新的数据，它这一批数据会记录在一个点log文件，对吧？那再来一个新批次，又这些数据又有插入有更新，它可能又在一个新的点log文件，也就是说在这张Mo表当中。
01:01
它是不是可能有PA，又有多个log，那你读的时候该怎么读啊？因为老的pack文件，它里面可能包含了一些是过期的数据，对吧？比如说我们原先这里有一条EA这么一条数据，然后后面我对它进行了呃更新，那我是不是有一条数据，比如说A变成B啊，变成EB啊，这是更新后的数据，那他过来他不会对原先pack回的文件进行处理，而是什么呢？将这一条更新的数据放在点log文件对吧？所以这个时候如果你只读这个PA，那可能是不准的，所以你要综合PA和点log文件啊。才能得到最新的结果，所以呢，我它这个Mo表就会在读取的时候也好，Log也好，它都会一起在读的时候进行合并，这也是为什么叫读时合并啊，只有在我进行读取操作的时候，我才会将pack跟log进行一个合并。
02:04
好，所以它的合并成本在读取端啊，它而且呢，它在写入的时候不会进行合并，或者说创建新的数据文件。对吧，这个就区别于Co表，它是写入的时候进行合并生成新的文件啊，那Mo不会啊，也就是相当于说是反过来了，当完成了标记索引之后，呃，对于具有要更新记录的现有数据文件，就像我刚才讲的那个例子啊，现有数据现有的那个帕啊，原先有一条数据是EA啊，那后面来了更新的数据要更新成B啊，它这个时候是创建增量日志。称量增量日志，就我刚才说的点log文件啊，它是放在这里的，OK啊好，那就像你看这一个文件组里面啊，有基本pack回，有基本not，那么大家要注意的一件事情是什么？一定有怕的吗？不一定，如果我这张互利表呃，是第一次有数据来，大家注意听我描述啊，这张表第一次有数据写入，也就第一批数据来，这个时候你没有怕回的文件吧，也就是说这个时候没有pack文件，第一批数据也是会追加到点log文件里面去啊，这个时候你就看不到park，就像我前面给大家看的时候，是不是也只有一个点log是吧？啊，当然呢，后面他，呃，对于Mo表有。
03:34
这个所谓的compassion啊，有不同的策略，不同的条件，当你满足这个合并的条件之后，或者执行合并的时候，就会将现有的呃pack和log进行一个合并成一个新的pack文件啊，这是compassion会做的事啊，那你看第一批数据来没有怕回的，那就正常点log呗啊，那第二批又是点log呗，第三批又点log啊，比如说我指定呃三个就会进行合并啊，那行啊，那现在三个他们就合并成一个。
04:06
啊，怕回的文件啊，就这个意思好行，我们具体看吧，呃，读取端将实时合并基本文件，也就是PA的及各自的增量日志文件啊，好了，每次的读取延迟都比较高，因为啊。我们要查询时才进行一个合并操作行，另外就是我刚才提到的压缩机制，也就是所谓的compassion，这个就是无论你读与否啊，有没有就是即使你没有读这个compassion，如果触发的话，它也是会进行啊文件的合并的啊，它会将数据文件pack啊，日志文件点log合并在一起，可以创建更新的pack啊，其实这个描述我刚才都讲过了。好，你看啊，原先呢，有基本文件，有log，有多个log，然后呢，执行compassion就会生成一个新的public文件啊，好吧，那关于这个compassion呢？呃，我们可以选择内联方式或者异步模式来运行啊，而且它提供了不同的压缩策略，那其中最常见的是基于什么提交的数量？
05:14
就像我刚才讲的，我每经过三次提交，每一次提交都会Mo表，每一次提交是不是都写入一个点log文件了，对吧？比如说我有三次提交，那就有三个点log文件，呃，那这个时候我指定数量为三就compassion，那它就会触发自己的compassion生成一个新的啊，这个就刚才唠过了啊。好。那么压缩完成之后，读取端只要读取最新的数据文件，而不用关心什么旧版的文件，这样是不是？呃，这种comp机制是不是可以减轻咱们读时合并的一个性能问题，对吧？如果你从来不做compassion，那我每一次读都必然要跟旧版的跟新版的，跟各种各多个log文件进行一个线合并啊，那效率就很低了啊，所以这个comparison也是很重要的一个事啊。
06:10
呃，那下面一些细节呢，就是什么呢？MO2表的写入行为根据索引会有一些区别啊，如果我们用的是布隆索引，它是无法对log.log这种文件生成索引的啊，所以这个时候他会怎么做呢？它会将插入的消息写入pack，将更新的消息写入这个点log。大家注意，这是针对布隆索引，为什么呢？因为它对阿芙罗这种log fire不能生成索引，那如果咱们用的是flink啊。啊，就是现象是不一样，这个大家要明白，如果用的是flink，它是基于状态的索引，那每次写入它都是log的一个格式，呃，并且会不断的追加，那这个时候他就不会说我insert的消息写入pocket update写入log，不是这样啊，它统一都写入什么log，追加到log，好这个是一些区别啊，那具体来讲就是回头咱们演示的时候啊，啊，如果咱们用Spark引擎，默认的不容过滤就可以是这样子啊ins色跟啊对是分开写，那么如果是flink，那就统一都写入到log啊好，这个就是MR表。
07:23
那么大家可以。想一想对吧，这两种表什么样的场景？呃，适合用什么表。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（18/78）

6分12秒

01_Hudi课程简介

690

10分41秒

02_Hudi概述_简介

630

9分53秒

03_Hudi概述_发展历史&特性

530

5分31秒

04_Hudi概述_使用场景

570

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

630

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

560

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

680

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

480

6分10秒

09_Hudi编译_执行编译命令&jar包位置

550

14分1秒

10_Hudi基本概念_时间轴TimeLine

550

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

460

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

440

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

470

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

610

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

620

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

460

7分40秒

68_Hudi集成Flink_离线Clustering

410

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

18_Hudi基本概念_表类型_MOR表

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐