文章/答案/技术大牛

发布

首页视频23_Hudi数据写_Insert&Overwrite流程

23_Hudi数据写_Insert&Overwrite流程

2022-12-022022-12-02 16:02:21播放63

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/23_Hudi数据写_Insert&Overwrite流程.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
呃，那其他的像insert这种写入流程就简单了啊，咱们快速过啊啊还是区分两种表，Cow跟Mo表啊，那如果是Co它一样的，先对呃，通过这个key啊进行一个去重啊，你也可以选择不去重啊，大家注意是可选的，另外呢，我们前面讲的index啊，Insert不会创建索引，呃，接下来就是蹭的问题了啊，如果有小的基本文件，那就去合并啊，生成新的，否则呢，没有小的可以蹭，就写新的呗，啊这个就银色的，很粗暴，很简单，MY也简单一样，我们可以按照这个key去重，也是可选，也不创建索引，那接下来。无非就是那坨事，就是你这个log文件有没有索引啊，能不能索引对吧，如果可索引，并且有小的可以蹭，那你就。去追加啊，如果没有那你就写呗，写呃，追加或者写新的一个文件啊。
01:01
呃，这边是为什么是或写最新的文件，因为咱们前面讲的不是有一个什么呢，滚动吗。就是说log有大小限制啊。啊，那么如果这个log fire不能够索引，那直接就自己写个新的就完事了啊，新的文件片大家注意是新的文件片啊，啊，那insert overri呢，这个是后面才支持的一个功能啊，叫覆盖写，呃，它会在同一个分区中创建新的文件组。并且呢，现有的文件组被标记为删除，这个就是区别它创建新的，同时将旧的组，大家注意它操作对象是组啊啊，它将旧的组标记为删除啊，根据新记录的数量创建新的文件组啊。说白了就是重来啊，那这边有一个小案例大家看就行了啊呃，在插入之前呢，这个时候分区有一个文件组一文件组二对吧？啊，他们有一个版本的都有一个pack的文件啊，那如果你是插入相同数量的记录覆盖，也就是说原先有呃。
02:13
这个组有十条数据，这个组有十条数据，那这个时候你是银色的overriy还是20条写过来，这个时候它会生成新的组三根，新的组四啊，并且是呃，也各有一个PA，然后呢，老的一跟二要被覆盖的这两个就在原数据中被标记为无效，标记为删除，就这么简单，就这么粗暴啊，生成新的，再把脑袋干掉，过河拆桥。对吧，就这么简单，那插入如果是更多的记录，那其实没什么营养啊，比如说原先只有20条，你覆盖写入是100条，那无非就是生成更多的新的什么文件组。那同样的呢，你要将。呃。方一方二就老的在T1后，原数据被标记为无效，就是老的又被过河拆桥了啊。
03:05
好吧，那其实这几个只是啰嗦一下啊，啰嗦一下，那如果是二表有什么特点一样啊，一模一样，好吧，这个就不啰嗦了。你看他们执行方面非常相似啊，而且不会干扰咱们的这个compassion啊，然后可以减少pack文件的大小啊，对吧，因为你重新规划了嘛，就相当于说你旧改嘛，你家老的自建房都推都都拆了，然后通过规划去盖房子，那肯定是，呃，空间使用更合理嘛，是不是啊，不浪费空间嘛，啊行。不需要更新关键路径中的外部索引。对吧，我不用去更新索引。好吧。还可以扩展清理策略，呃，缺点呢，也有需要转发以前提交的原数据。
04:06
另外呢，呃还有一些小问题，当然这个缺点是在呃官方的一个呃啊设计当中的一个考虑啊，这个咱们现在不用去操心，也就是说有一定的小代价吧，一个是转发原数据，第二个呢是将忽略老数据。啊。但是这个事不用我们关心他，呃，会有方案来忽略他们。这个就简单介绍一下啊，那咱们在这里面最常用的还是这个什么upset，这是最重要的一个特性啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（23/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

23_Hudi数据写_Insert&Overwrite流程

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐