文章/答案/技术大牛

发布

首页视频19_Hudi基本概念_表类型_两种表的区别

19_Hudi基本概念_表类型_两种表的区别

2022-12-022022-12-02 16:02:21播放45

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/19_Hudi基本概念_表类型_两种表的区别.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那接下来我们就来对比一下这两种表的优缺点啊，区别在哪里啊，来这是C，这是二，那我们看一个从数据的延迟来讲，谁更高啊。Cow更高一点啊，Me也就MR的表反而会更低一点啊，数据也延迟。那么查询的延迟呢，就是我查这张表啊，需要多久时间COD，为什么呀，因为我要查的时候，它是比它是在写入的时候就进行合并了，我查的时候他是不是已经合并完了。啊，简单来理解是这样，所以我查的时候是不是延迟更低一点。是吧，呃。那么对于Mo Mr来讲，你的查询延迟就高了，因为你是读取查询的时候才进行一个合并啊，那你肯定就相比CW要慢一点啊，啊对，当然这个数据延迟，嗯，有有的人可能不理解什么叫数据延迟，其实就是什么，就写入延迟，你简单这么理解啊，写入延迟，写入延迟Co肯定高嘛，因为写的时候要合并嘛，好吧，啊好行，另外一个是更新的成本，IO成本啊，我要对表的数据进行一个更新，谁的成本更高呢？啊，对于Co来讲它更高，因为我们知道每一批数据来，它是不是要把旧的跟新的数据进行一个合并，写入一个新文件，那如果呃，我有一张表。
01:25
有一个拍回的文件吧，比如说这里有1万行数据，那现在我对其中的某新来的数据是对某一行数据，比如说ID为三的进行更新，那这个时候他是不是同样得拷贝原先的1万条数据，并且将新的数据跟老数据合并，再写入一个新文件，这个代价是不是有点大，能理解这个意思吧？啊，这个代价就大啊，另外一个呢，就是咱们的这个MO2表。它代价比较低，为什么它不会动原先的PA的对吧，先不考虑这个compassion，呃，我不会动，我只会将新来的这些数据插入也好，更新也好，我都追加到那个点log文件啊。
02:05
回头等compassion，或者等你查询的时候我欠合并啊好行文件的大小，呃，Co它的是更小更低，但是它更新的IO成本更高，那表它的pack回的文件会更大一点啊，但是它更新成本比较低。呃，写放大啊，那cow不用讲，它肯定是一个写放大的一个问题，对吧，我写的时候哎，我要拷贝旧数据啊，就大家就比较重，那么MO2表呢，他写会不会放大呢？就呃相对来讲是低一点，当然说了这么多，大家应该有一个初步的印象，但是理解不会很深入吧，那咱们来个大白话啊C适合什么？呃，P咱们以P还有流计算这两种场景来考虑，是不是更适合于P呀，因为我们知道它有一个什么写放大的问题，如果我原先的PA的文件有一假设啊，有一议行，当然不会这么做啊，我们不会让它那么大有亿行，现在呃，我来的数据这个批次只有一条是更新的数据，那你是不是要拷贝原先1亿行跟新的这一条进行合并，大家有点重吧，但是如果我来的是一批数据，这里面包含了比如说100万条，那也就是说我做这么一次啊，那还行对吧，比你一条一条的去啊写实拷贝啊，效率会更好一点。所以呃，建议就是cow表呢，咱们还是用在P的处理的一个场景会更好一点，那二表呢？
03:47
就是呃，P也好，流也好，其实也都行，但是如果是流市场景，咱们更推荐表，因为你想想什么叫流啊，流处理啊，流处理是不是数据源源不断的来是吧，那如果不做处理，咱们是不是数据是一条一条来的，一条一条写入啊。
04:06
对不对，那那也就是说它写入会特别特别的频繁，丢处理写入很频繁，每次量又很小，你用Co的话，这个写放大问题就很严重，特别严重啊，没必要，所以如果是流逝场景，特别是你用CDC去同步一些数据过来，呃，咱们还是推荐用Mo表，当然不绝对啊，不绝对啊，如果你对虽然是流处理，但是你做了一个长P的处理，那其实也还行啊好。这个是咱们啊主要一个对比啊，心中有数啊，也就是说cow偏向于P或者呃，只要有展P吧，不管是P处理还是留处理，有展P的这种更好一点，呃，MO2呢，更适合呃流式的写入啊，流式的写入好，这个取舍呢，各大企业就一些大厂他们在用的时候啊，呃，牛市场景也有用Co的，也有用MO2的啊，就是说嗯，你看吧。
05:06
啊，这是我的，呃，一些建议。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（19/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

19_Hudi基本概念_表类型_两种表的区别

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐