文章/答案/技术大牛

发布

首页视频12_Hudi基本概念_文件布局_文件管理

12_Hudi基本概念_文件布局_文件管理

2022-12-022022-12-02 16:02:21播放48

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/12_Hudi基本概念_文件布局_文件管理.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那么这个文件布局当中，我们还要了解一个他对文件的一个管理，因为我们知道忽底前面也聊了一些特性，它支持那个呃，版本控制。然后呢，又可以去做一些compass对吧。那这个时候就注意新版本跟老版本文件的一个问题了，那我们先了解一个概念啊，看这张图，呃，这个是一个分区路径啊，大家注意啊，外面这个大黑框表示的是某一个分区的护底表的某一个分区目录了，在一个分区当中，刚才带大家看的是不是有点log文件了啊，其实也有可能有点pack文件是吧？好，那他还做了一件事，他将这些pocket跟log封装成一个一个的，也不是封装了啊，就是划分为一个一个的文件组。大家注意叫文件组发group，那每一为什么叫group呢？因为它每一个组里面存储了多个文件片，每一个文件片代表一个版本，能理解吧？啊，比如说FIRELI1啊，这是老版本，FIRELI2就是现在目前最新的版本啊，那我们看一下具体的说明。
01:15
呃，护底将表组织成文件系统的目录，对吧？这个刚才看过了，表名就是目录名啊，分区也是个目录名，表位划分为多个分区对不对啊，分区是包含该分区的一个文件夹，类似于汉啊，这前面这两点好理解，在第三个啊，每个分区中文件被组织成什么文件组？另外有一个词大家记组由文件ID唯一标识，什么意思呢？啊，我在一个分区路径下可能有多个文件组，每一个文件组都有其对应的固定的ID，大家注意ID是固定的。每一个组有一个固定的文件ID啊，记住这一点啊，好，那每个文件组里面包含可能有多个文件片，叫fireli对吧？文件片啊，每个文件片包含什么呢？大家注意，一个基本文件点PA，这是列式存储多个日志文件点log的后缀。
02:13
啊，这是多个啊那么。正常来讲，呃，在一个基本文件就表示某一次提交或者合并后，在那个时刻生成的一个所有的数据啊，这不好理解是吧？啊，后续再来聊啊，也就是说正常的是有一个点pack文件的啊，要么是提交之后，要么是合并之后啊，会生成的pack的文件。呃，那么如果是点log文件，这是我们前面简单提到的是Mo这种表里面啊，它会有这种增量提交，那就是点not。这些日志文件就包含自生成基本文件以来对基本文件中的数据插入和更新啊，那cow没，没有，这个是copy on right啊，就写实拷贝，这是里面的两种表啊，回头我们后面会介绍啊。
03:13
先留个印象，说白了，文件片就是有pack回有log，能理解吧，Pack是一个，Log是多个啊。另外一件事就是为什么会有多个文件片呢？因为我们保存了多版本啊，多版本的数据，多版本并发控制啊。啊，那每一次compassion操作，它会合并这种点log文件，还有pack这种基本文件，产生新的什么文件片，诶大家注意这句话，当我执行一次compassion呢，啊，这些多个点到文件就会跟PA进行一次合并，生成一个大的新的PA的文件啊那这样的话，你看比如说他们，那他们呃，这个新生成的帕文件是不是就最新最全的数据啊。对吧？啊，这样就生成了一个新版本的一个一个数据文件，另外一我们知道instant里边有一种操作叫清理，对不对啊，它就会清理不使用的或者旧的文件片，对吧，已回收，因为可能我经过多次compassion之后啊，比如说我进行了十次compassion，那么这十次是不会每一次compassion都会对应一个新版本的数据文件生成，是不是那时间越久，这个compassion越多的话，你不可能所有的版本都存着，是不是，那肯定有个策略说，诶我我满足什么规则的，这些旧的版本文件片，我要把它清理掉啊，是有这么一个事儿，好。
04:40
另外注意一个事啊，那我们先来聊一下pack文件的一些细节，这个基本文件它在里面的foot的me里面去记录了什么record key，它里面用的是不能过滤啊。说白了就是有一个索引，同学们啊，有一个索引。
05:02
嗯。他这样通过这个东西就能高效的去检测这个record key在不在啊，只有不在的时候才去啊，需要去扫描整个文件去消灭假阳性，我们知道不容过滤是不是有假阳性，假阳性就是说不容过滤这种实现方式我们只能百分百确定啊。不存在。但是。如果不能过率显示存在，那是不是也有可能它不存在对吧，有一个假阳性率，或者咱们直白大白话来讲，就是有一个准确率的问题，你说不在，那就一定不在，但是你说在。那只能说可能在能理解这个意思吧，因为你说在是有准确率的啊，这个不容过率，呃，自个去了解了，它就有一个哈希函数，还有多个哈希函数，还还有K值啊，怎么样去计算，呃，总而言之，这一段话什么意思呢？也就是说呃，这个pack里面它记录了。
06:05
每一条数据的一个唯一key叫record key啊，这个词大家稍微记忆一下啊，会经常提到，经常用到啊record key举个例子啊，我有张表啊，别管分不分区呢，比如说我有数据123啊，1A2B3C这么三条数据吧，啊，那假如那么这三条数据刚好就在一个pack文件里面啊，啊，就别说刚好就是在一个pack文件里面，这个时候呢，其实呃，这个PA文件会记录一个索引的啊。所以啊。那我们可以基于布隆来做这个索引的查找，因为布隆布隆会快一点，并且节省空间嘛，效率高嘛，是不是啊布隆过滤，那这个时候呢，比诶比如说我现在要么更新或者插入，这个时候你是不是得嗯先判断一下。相同key的在不在，这个key是由咱们去呃，可以由我们去指定的啊，就是这个key，比如说EA这个key，我用第一列作为key，也就是说第一行的key是一，第二行K是二啊有点像什么，有点像关系型数据库里面那种组件这种概念能理解吧？啊类似于组件这个概念啊，有点类似啊，我只是说类似，好这个时候比如说我要插入一条二呃D的数据，那这个时候他会啊判断一下二这个K。
07:29
有没有啊，这个时候他通过这个索引机制，通过布隆的方式啊，就能判断到，诶，我这个二是存在的，那这个时候这条数据就可以单独去处理这条把它更新掉，这也是忽底实现，呃行式还有部分列的这upset的这种呃，很重要的索引机制啊，这个我在这里简单提一嘴啊，简单提一嘴。好，再看下一点啊，蝴地的log，也就是点log这种后缀的是阿弗罗格式的编码，对吧？它通过机攒buffer，并且以block block block为单位写出，也就是说它并不是一条一条写的，就想说这一点而已，而是攒一批数据，咱们去写一次log啊，那每一个呃，Log block一个，文件一个。
08:22
日志快吧啊，咱们叫log快吧，有一个魔法值大小上下文啊，文本，还有一个复等信息，用于读校验和过滤啊，当然这些事不需要我们去关心啊，这是它内部实现的一个机制，对吧？但是既然聊到就简单喽，呃，说一句啊，那下面这张图就很明显了，这是两种格式的文件，一种是pack，一种是log。那PA的一个文件重要特性就是会做一个什么，呃，文件的原数据里面会有一个索引啊，可以用布隆，可以用其他的索引方式啊。
09:01
那log就更复杂了，对吧，它记录了一堆东西啊。好，这个是文件布局啊，我们总结一下啊呃，其实总结就是这张图，还有上面这张图，第一个呢，就是我们在文件系统啊，是以什么方式存储的，一个表就是一个目录名对吧？一个分区也是个目录名，那跟呃表目录下除了分区目录，还有一个原数据目录，点互利啊就这就完了呗啊那每个分区目录里面啊是数据文件，要么是点park，要么是点log啊就这两种就完事了呗啊再往下走。呃，就是这里要注意湖底的一个多版本控制啊，就是每个分区路径下面，它是以文件组的方式来组织的啊，有多个文件组，每个文件组有一个唯一的ID啊，记住这一点啊，那每个文件组里面可能有多个文件片，每一个文件片包含了一个pack，多个log。
10:03
啊，具体有几个不一定，但park有的话也只会有一个log，可以有多个，呃，那这个时候呢，这样一组，呃，是一个版本对吧？当你进行合并啊，或者新提交啊，啊，生成一个新的版本啊，那最新最全的数据就在新版本里面嘛，啊那老的版本也是个文件片，新的版本也是一个文件片啊另外呢，有一个清理清理器对应的清理策略，会去清理旧的老的文件片啊这就完事了。嗯。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（12/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

12_Hudi基本概念_文件布局_文件管理

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐