文章/答案/技术大牛

发布

首页视频17_Hudi基本概念_表类型_COW表

17_Hudi基本概念_表类型_COW表

2022-12-022022-12-02 16:02:21播放43

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/17_Hudi基本概念_表类型_COW表.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
前面聊了这么多概念，那么接下来这个概念是大家必须要了解了，就是表类型。在whodi当中，它有两种表，一种叫copy on right，简单来讲就是写实拷贝，另外一种表呢，叫做merge on read，叫读时合并。啊，那么大家记住啊，这是护体特有的两种表类型，那我们先来看第一种类型叫cow啊，咱们简称Co啊，Copy on right，那么它的特点是它的数据文件当中，它只有一个基本的列文件，列存的也就是这种所谓的的格式。他没有点log啊，这个特点大家要记住啊，因为点log是增量提交的时候才有的啊，这个时候没有，那么对于每一个新批次的写入，它都会创建相应的数据文件的新版本啊，这句话大家好好品一下啊，对于每一个新的批次，也就是说我写入一批新的数据了，那这个时候都会创建相应数据文件的新版本。
01:09
诶，重点是什么，新版本新的一个文件片，也就是我举个例子啊，原先在一张Co的表中，它只有一个文件，比如说啊。它里边比如说存储了ID为123这么三条数据啊。那现在呢，我们要去追加写一个四跟五这么一批数据啊，四五这两条新的数据要写进来了，那这个时候他会做什么呢？啊，他就会将原先老的，也就原先的pack文件，再加新增加的这些变更数据，将他们合并起来。然后呢，就会变成一份新的12345啊这样子能理解这个意思吧，这也是为什么叫写实拷贝，拷贝的是什么呢？拷贝的是原先的PA的文件，将原先pack文件都拷过来，再将新增的部分及变化的部分合并进去，再写入一个新的文件，那新的文件它也是一个什么呢？Pack，那这个时候呢，对应我们前面聊到了一个概念叫什么呢？文件片，那这个123这个比如说它就是一个文件片啊，比如说是一吧，我们称之为一，那么写实拷贝完啊，合并完这个新的pack文件，那可能我们就可以认为它是一个文件片二他们都是在同一个文件组里面是吧？嗯。
02:39
这也是为什么我们前面说到这个文件片可以理解为，呃，不同文件片是不同的数据版本。好，这简单理解啊，呃，新版本文件包含旧的文件记录机这个批次的记录，那最新的这个文件片就是包含了全量最新的数据，好，那下面看一个具体的例子啊，其实大家基本理解了啊，那当前呢，是给到三个fire group，诶大家注意啊，我们的意思是，诶，这是一个firero，这是第二个，这是第三个，也就是说有三个文件组，那么目前呢，他们的版本都是第一个版本啊第一个版本好，那这个时候我们进行一个数据的写入，新的写入，那你看啊，场景是这样，在索引之后，我们发现这些记录仪啊，文件组一，文件组二匹配了，也就是说什么呢？啊，我有些数据是要进行更新操作的。
03:36
啊，那这些数据对应的原先数据在文件组一和文件组二里面啊，另外呢，有一些数据它是属于新的插入啊，不是更新了啊，那这个时候我们会将新的插入写到一个新的文件组啊，也就第四个组，比如说啊好，所以就变成下图这样子。文件组一文件组二有些数据需要更新啊，那这个时候他们就会对呃旧的呃V1版本的数据还有更新的数据进行合并啊，并且呢，写入一个新的，生成了一个V2版本，那文件组二同样的道理，它也生成了一个V2版本，新的文件片，新的pocket，那文件组三呢，没有变化啊，那还有一些是新插入的数据啊，就写入一个新的文件组。
04:25
文件组四好是吧，这个应该都好理解吧？好，再往下看，那基于这个大家就能想到了，呃，它是属于写入期间进行合并的，也就是说我一批数据插入了啊，我既要拷贝老的数据，又要将老的数据将新写新过来的数据进行一个合并啊，写入一个新的文件，所以呢，它写入的延迟相对会大一点，但是cow是最早屋底设计的一种，呃，表一种表，它的优势就是它非常的简单，另外有一个特点需要大家记住，它并不需要进行compassion。
05:07
大家注意啊，如果是Co的表，它并没有compassion这个动作，因为他每一次都写入的时候就进行合并，合并成一个新的呃呃，Pack文件了啊，所以呢，它cow表就没有必要进行这种压缩合并操作啊，也是用起来比较方便和简单啊。好，那么这个是我们对Co表的一个理解啊，应该没什么难度。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（17/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

17_Hudi基本概念_表类型_COW表

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐