文章/答案/技术大牛

发布

首页视频58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

2022-12-022022-12-02 16:02:21播放39

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/58_Hudi集成Flink_核心参数_文件大小&Hadoop参数.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们前面也聊到伏迪它本身有一个特性，就可以自动管理小文件是吧，也是它可以帮我们管理文件的大小跟数量，那么它也有相应的参数可以控制，第一个呢，呃，就是它会避免像查询引擎暴露小文件，自动处理文件大小，那这个时候呢，它我们不管是做insert还是assert时。它都可以将文件大小维护在一个指定的文件大小，那么注意啊，只有log文件的大小可以做到准确的，就你配多少就是最大多少，那PA的文件值是，呃，大概的啊，就是允许超过一点或者小于它这东西这只是一个估算值，行，我们具体看一下吧，啊，首先看一下刚才聊到的日志的固定大小，那是这个。这个参数啊，Log fire max size，那这个呢，是log fire的最大大小，在滚动到下一版本之前允许的最大大小，也就是说一个上限啊，我一次commit你最多就这么多嘛，对不对啊。
01:04
那么。而且log大家知道是可以追加的，对吧？啊，你追加最多也就追加到这么多啊，不能再高了啊，那这个单位默认是字节啊，是这么大的一串数字，那简单理解就是一个G啊，你除一下1024，再除1024，再除1024啊好，那这个一般呢，我们不用动啊，我只是列出来让大家知道一下啊，最大默认是一个G，但一般来讲我们都达不到一个G，因为其他条件会影响你怎么影响呢？来注意看第一个呢，是pack的文件大小。啊，最大呢是120兆。如果超过这个大小，就会往新的fire group去写了啊。就不会在在这个里面继续了啊，这个是控制的一个pocket大小，第二一个呢是log文件转成PA的一个比率啊。那这个比例默认是0.35。
02:04
那第二第三一个呢，这个是很关键的一个参数。这个就是什么呢？在写入时啊，忽底会尝试先追加已存在的小文件，是不是该测参数设置的小文件的大小阈值小于该参数的文件被认为是什么呢？小文件也就是说小于它就能够继续追加，我们前面一直聊过，说有呃分区分有没有索引，能不能追加是不是？那flink是有索引的，那应该是log都能追加，但这边参数是什么？Perfect啊，Perfect好，那还有一个呢？根据预估的。大小。就是一个数据，一条数据的大小啊，会根据历史的提交去估算这条数据的大小啊。如果之前的提交当中有一个单次写入超过small fire，就是这个大小。
03:03
就以前呢，单次写入有曾经有一次你比如比如说你限制是一兆啊，结果你上次提交当中，一次提交就提交了两兆的数据啊，如果出现这种情况。啊。那如果没有碰到这个条件，那么呢啊，它就会使用这个参数来估算啊，就是说如果你碰上了之前的限制，那就是什么啊，它是动态估算。动态估算。那否则就按照这个来啊。这个默认是1K啊，也就是说前面这几个参数共同决定了什么，对于pack的一些动呃影响，而且是一种估算值，估算值。好，那可能这个刚才说的不是很明白，我再总结一下这个啊，这个就是估算的数据大小，这个是我们填的，也就是说如果正常情况下就按照这个参数来，哎，我估算你一条是1K啊，或者你可以改这个参数，那么如果之前的提交当中有一次。
04:16
呃，一条数据的大小超过了小文件的限制啊，小文件限制，那么就不会再以这个参数为准了，而是由他自己来动态估算，能理解这个意思吧？啊，也就是说没有特别大的数据没有超过这个限制，那就一直按这个参数来估算啊。然后这个是log的限制行，那下面呢，我们建一张T4啊，我们改一下哎，比如说的最大大小我改成了什么，这个单位是字节对吧，大概就是10K啊10K，那么这个可追加的小文件限制我是5K，也就是说小于5K，咱们可以继续往里追加啊，小于5K可以追加啊，就这个意思来拷贝一下。之后呢，咱们还是五秒钟插入一次吧，啊，慢慢的来观察啊T4啊好行，那接下来就观察HDFS啊退出啊T4。
05:11
注意看它的文件大小啊。嗯。好，现在一下子就10K了啊，这个LOG1010一下子就10K了。20斤。30K你看。然后紧接着就生成第二次log，就不继续往里追加了啊。啊，第三次。好，接下来看八回的。呀，卡了。
06:07
那我们怎么看跟之前的区别呢？啊，那我们回忆一下这个参数啊，我们说因为我这个最大大小是不是设的10K啊啊，大家很明显可以看到已经这些趴都400多K了吧，肯定超过了呀。呃，但是我们这边说一个什么呢。他说呀，最大可写入的，而且它是一个估算值，如果超过这个大小，那么就会用新的fire group，新的fire group就是新的fire ID，对不对，那你看嘛，这些是不是都是新的fire ID。啊，这个什么B1，然后你看紧接着又是一个新的ID。对吧，再往后又是一个新的发ID，因为他每一次什么都超过了啊，都超过了。啊，这个就大家简单就是了解一下就可以了。
07:00
第一次的，嗯，第一次有一个重复，这个正常啊，这是第一次的，那再往后就不会再有重复了。诶，还是有重复啊。所以这个呢，可能也跟这个并发有关系啊，也可能是因为我们设的太小了。是的，太小了，你看这边还是有点变化，还是有有有个别还是会重复的。那我们看一下T3之前没有做限制的时候吧，它的PA都是长啥样，你看之前这个T3，呃就对比对比在哪呢？你看啊，它都是呃接近一两兆了，对吧，肯定没超过那个大小，那你看他们的fire ID怎么样？这些的都一样啊，同学们。能看到吧。这个就是最明显的区别了，确实有在控制对吧？所以如果你不想让它生成大量的新的fair group，呃，那么你这个大小max值啊，就不要设的特别低，像我刚才就设的特别低嘛，对不对啊，所以这个咱们要对比着来看，你看这些park全部都是同一个啊，全部都是同一个，那么你也可以把compassion，为了准确啊，你这边把这个compassion，呃，并发设为一啊，这样可能更明显一点啊。
08:31
这样子啊。好，反正现在我们是看到现象的，对不对啊，那这个5K的我们肯定永远看不到了，都是大于5K啊，这只是做一个演示。那最后呢，还有一个哈杜参数，我们简单说吧，从一二版本才支持啊，因为有一些场景就是你要跨哈杜集群提交执行。那你就希望说，诶，我当前这个是，比如说我是哈杜集群一，咱们这不是一个雅安session嘛，对不对啊，这是在用的HDFFS也好，用的雅安也好，是哈杜普集群一的，那如果你的公司里面还有另外一个哈杜普集群，对吧，那你现在比如说要往这里去写数据。
09:16
要往哈杜啊，这个集群上面写数据，不是服务器啊，是集群啊，哈杜和集群，那这个时候你那个地址肯定不一样嘛，对吧，但是你这个时候怎么去指定呢？诶它就支持了，你可以去指定哈杜ER点啊，然后呢，就是哈杜参数了，就是带一个前缀哈杜就可以了啊。那这个就没什么好演示的，就你有有这个场景，你就这么来用就可以了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（58/78）

6分12秒

01_Hudi课程简介

690

10分41秒

02_Hudi概述_简介

630

9分53秒

03_Hudi概述_发展历史&特性

530

5分31秒

04_Hudi概述_使用场景

570

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

630

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

560

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

680

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

480

6分10秒

09_Hudi编译_执行编译命令&jar包位置

550

14分1秒

10_Hudi基本概念_时间轴TimeLine

550

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

460

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

440

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

470

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

610

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

620

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

460

7分40秒

68_Hudi集成Flink_离线Clustering

410

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐