文章/答案/技术大牛

发布

首页视频39_尚硅谷_Kafka_Broker_文件清除策略

39_尚硅谷_Kafka_Broker_文件清除策略

2022-12-022022-12-02 16:02:03播放35

点赞0 收藏 0

尚硅谷大数据技术之Kafka3.x（2022版）/视频/39_尚硅谷_Kafka_Broker_文件清除策略.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们来看一下卡夫卡的一个文件清除策略。也就是说在卡布基金当中的数据，它默认保存多久？哎，其实呢，是保存七天，七天之后自动将数据删除掉，那有哪一个参数来帮我们进行一个控制呢？哎，对应的参数值啊，是这个。啊，那我们来官网看一下，它是不是对应的七天啊。FV。把前面那个删掉啊。那现在的这个参数呢，默认值呢是168小时，那你除以24的话呢，就是七天好。那么再往下看看这个值。叫log ten minutes，你上面是小时，那我如果想保存这个数据，按照分钟进行保存，那怎么办呢？看这句话，据说大家英文水平啊，都非常高超是吧？At the number of minutes keep along啊，这个file before deleted，比如说删除时间，呃，Secondary to，这个这个参数。
01:00
If not that the value is，这个有啊，啥意思啊，比如说如果没有设置这个值的话，那取谁的值啊？没有设置它的话，取这个值。那言外之意就是射了他之后，那是不是这个就没效了啊，就是这个意思啊，也就说白了，它的优先级更高一些。那所对应的参数就是分钟级别。那比这个分钟级别还高一级的，就对应的这个毫秒值哈。呃，往下看。查一下。好，那下面我们来看一下对应的这个参数哈。呃，这句话参数有什么意思呢？The number of minutes啊，也就是说这个毫秒值keep啊，保持数据这个删除这个时间一个设置，说if这个参数没有被设置，那你用谁的呢？哎，用这个分钟级别的也说，言外之意就是它的优先级比分钟级别的还高。
02:01
他设置了，那走他不设置的话，走分钟级别的。就是这个意思啊。行，那我们回过头来看一下啊，这个不同的优先级，那好，那你上面呢，是设置这个超时时间，那我多长时间，我来判断一下你这个数据有没有进行一个超时呢。那这里面默认的检测周期是五分钟。那要注意了哈，要注意了，比如说如果你是啊，这个超期时间是七天的话，那我五分钟检测一次，那没有问题，那你是分钟级别，那你不要小于五分钟，比如说你是十分钟对吧？啊总时间十分钟超时，那五分钟检测一次还好，但是如果你是这个毫秒级的。一个删除那不好意思，那你这个默认这个五分钟啊，这个数就没有意义啊，你是不是得比他这个还要小啊，我举个例子。你这里面最高的优先级如果是100毫秒，我删除数据，那你这个检测周期是不是就得是五毫秒。左右，这样的话是不是要好一些啊，要注意啊。
03:01
行，那这个呢，一般情况下我们不会设置这么短的啊，一般呢，就是按这个天啊，或者按照分钟进行设置就可以了。那么不管怎么样。总有一个数据超期的时间。那一旦超袭之后，我们怎么对这个数据进行处理呢？哎，你有两种策略进行处理，另一个呢就是删除数据，删掉，另一个呢，是采用叫压缩，那我们来详细看一下怎么删除怎么压缩的。这个叫删除，哎，那配置的参数是这个。这是你的策略哈，也就这两个策略呢，你可以任意去选，那默认采用的就是这个删除，来看一下是不是删除啊。啊，这里面默认的这个策略呢，就删除啊，而且给你的外流值啊，有这个呃，压缩和删除啊这么两个。那来详细看吧。这个呢，就是基于时间默认打开，比如说以segment文件中所有记录的最大时间戳作为该文件的时间戳。
04:06
啥意思呢？比如说你这里面你看一个seg大小啊，它是一个G，那总有先进来的日志和后进来的日志，那这个sment整体什么时候超七。它是以最大的时间戳作为文件的超期时间戳，比如说最后进来那个啊，是否超期是这个意思啊。然后那我们就假设一下啊，说如果一个三分当中有一部分数据过期了，一部分数据没过期怎么处理。那比如说你这个删除说零啊，假如说这些数据呢，都已经过期了，这没啥说的，直接干掉就行了，但是就怕这种。他有一半儿数据。确实超过七天了，那但是这边数据呢，没超过，那怎么处理啊，那你深刻体会一下这句话，说这漏中最大的时间戳，我也概念时间戳，比如说最后一条最新的。它超期之后我再把它删掉，那没有超期，那就等着是这个意思啊，那它其实还有一个啊，还有一个删除数列，就是基于大小的，那默认的这个是关闭的。
05:06
基于大小，怎么个基于大小法呢？说超过设置的所有日志的总大小，那么就删除。最早的这个门。哎，这里面对应的参数是这个。这个是什么意思啊，它防止啊，比如说咱们一台服务器，一般情况下呢，假如说生产环境当中是8T的这个硬盘，那好，那我在这里面存储各种S格SS。那万一我存储的SS的这个大小超过了你这个八个T。那我说就重新下了。那你问你这时候怎么办，哎，他是这意思啊，如果你把这个功能打开的话，那他就会把历史的这个数据。删除掉对吧，最早的。那你去找他。那这个呢，在生产环境当中一般不会打开，你想啊，这个要打开了。嗯，有可能你这个硬盘啊，确实比较小，时不时的给你咔咔删除掉几条数据。那这个大家是受不了的啊，所以通常情况下呢，这个是把它关闭掉，那怎么关闭掉呢？啊，其实它默认的就是这个负一，哎，表示的是无穷大，那就把它关闭掉了哈。
06:09
那我们看一下它是不是负一。对吧，哎，这个值呢，就是负一啊，通常情况下呢，不会限制说这个赛格in的大小啊，总大小超过了啊多少多少，那我们就会把这个，呃，最早的这个赛格们呢删掉啊，不会这样去做啊，一般情况下我们的硬盘呢，都会给它比较充足，比较充足。行，那下面呢，还有一种策略呢，叫压缩，那压缩跟我们之前学的snap皮拉着罗啊一不一样呢。那我们来看一下啊，其实呢是不一样的啊，不一样的，比如说我们要想采用压缩的策略的话，只需要将这个参数修改为contact就可以了啊。那他怎么压的呢？这么压的。说对于相同的K的不同的Y流值，它只保留最后一个版本，比如说保留最新的。
07:06
那你看，比如说我们这个数据，这个这是K，这是K。我三个K。那我只保留其中的K4最新的这样一份数据就OK了啊，是这个意思啊，那同样道理，像这个K3。哎，它是最新的，那我就能拿过来，那K4呢，最新的拿回来K5，那K5呢，我跟谁比呢？诶跟后面那比，你发现它是老的，那我就拿最新的，那K2呢，哎，我也拿最新的跟这个比的话。再呢，就是这种压缩并不是我们理解的什么奈皮啊，拉罗这种方式啊。那好，那看一下有个注意事项，说压缩后的这个ET呀，它不是连续的，比如说你看这是。4578中间是不是少个六啊，与此同中没有六。那我如果说我想从upset为六这个位置进行消费出去，那怎么办呢？我拿不到这个六，哎，拿不到六就比它，拿它比它大的，那我就从这个七这辈子开始往后消费就没有任何问题啊，这个一定要注意一下。
08:05
那这种压缩在生产环境当中，什么场景下会进行使用呢？是这样一个场景啊，它适合一些特殊场景，比如说消息的这个key啊，是用户ID。啊，Y6呢是用户的信息，比如说呢，去年呃，他的年龄呢是18，今年呢是19，那历史的这个18类数据是不是就没有意义啊，哎，我就可以把它进行一个覆盖。啊就是这样啊，所以这个呢，压缩呢啊用的比较少，知道就可以了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Kafka3.x（2022版）

（39/96）

4分52秒

01_尚硅谷_Kafka_课程简介

550

6分21秒

02_尚硅谷_Kafka_概述_定义

430

7分35秒

03_尚硅谷_Kafka_概述_消息队列应用场景

510

3分47秒

04_尚硅谷_Kafka_概述_消息队列两种模式

470

9分39秒

05_尚硅谷_Kafka_概述_基础架构

480

15分36秒

06_尚硅谷_Kafka_入门_安装Kafka

610

4分33秒

07_尚硅谷_Kafka_入门_启动停止脚本

490

10分58秒

08_尚硅谷_Kafka_入门_Topic命令

530

5分9秒

09_尚硅谷_Kafka_入门_命令行操作

430

13分48秒

10_尚硅谷_Kafka_生产者_原理

500

12分15秒

11_尚硅谷_Kafka_生产者_异步发送

430

3分20秒

12_尚硅谷_Kafka_生产者_回调异步发送

320

2分21秒

13_尚硅谷_Kafka_生产者_同步发送

420

4分38秒

14_尚硅谷_Kafka_生产者_分区

430

11分17秒

15_尚硅谷_Kafka_生产者_分区策略

400

4分55秒

16_尚硅谷_Kafka_生产者_自定义分区

390

11分0秒

17_尚硅谷_Kafka_生产者_提高生产者吞吐量

390

14分0秒

18_尚硅谷_Kafka_生产者_数据可靠

350

15分5秒

19_尚硅谷_Kafka_生产者_数据重复

420

2分11秒

20_尚硅谷_Kafka_生产者_数据有序

310

4分47秒

21_尚硅谷_Kafka_生产者_数据乱序

370

6分0秒

22_尚硅谷_Kafka_Broker_ZK存储

450

5分21秒

23_尚硅谷_Kafka_Broker_工作原理

420

1分25秒

24_尚硅谷_Kafka_Broker_上下线

360

7分26秒

25_尚硅谷_Kafka_Broker_服役新节点（上）

350

7分24秒

26_尚硅谷_Kafka_Broker_服役新节点（下）

410

5分18秒

27_尚硅谷_Kafka_Broker_退役旧节点

400

16分4秒

28_尚硅谷_Kafka_每日回顾（上）

310

24分24秒

29_尚硅谷_Kafka_每日回顾（下）

460

4分18秒

30_尚硅谷_Kafka_Broker_副本基本信息

360

10分1秒

31_尚硅谷_Kafka_Broker_Leader选举

360

5分53秒

32_尚硅谷_Kafka_Broker_Follower故障

430

1分56秒

33_尚硅谷_Kafka_Broker_Leader故障

400

6分26秒

34_尚硅谷_Kafka_Broker_分区副本分配

400

4分40秒

35_尚硅谷_Kafka_Broker_手动调整分区副本分配

330

5分57秒

36_尚硅谷_Kafka_Broker_LeaderPartition负载平衡

460

2分57秒

37_尚硅谷_Kafka_Broker_增加副本因子

370

12分49秒

38_尚硅谷_Kafka_Broker_文件存储机制

460

8分33秒

39_尚硅谷_Kafka_Broker_文件清除策略

350

7分58秒

40_尚硅谷_Kafka_Broker_高效读写

310

2分52秒

41_尚硅谷_Kafka_消费者_消费方式

320

4分54秒

42_尚硅谷_Kafka_消费者_消费者总体工作流程

410

5分26秒

43_尚硅谷_Kafka_消费者_消费者组工作原理

250

6分48秒

44_尚硅谷_Kafka_消费者_消费者组初始化

390

4分1秒

45_尚硅谷_Kafka_消费者_消费者组详细消费流程

360

9分34秒

46_尚硅谷_Kafka_消费者_消费一个主题

410

6分37秒

47_尚硅谷_Kafka_消费者_消费一个分区

280

3分25秒

48_尚硅谷_Kafka_消费者_消费者组案例

460

12分58秒

49_尚硅谷_Kafka_消费者_Range分配

380

6分48秒

50_尚硅谷_Kafka_消费者_Roundrobin

360

5分51秒

51_尚硅谷_Kafka_消费者_Sticky

390

7分32秒

52_尚硅谷_Kafka_消费者_offset保存位置

420

4分41秒

53_尚硅谷_Kafka_消费者_自动offset

350

4分33秒

54_尚硅谷_Kafka_消费者_手动offser

360

9分42秒

55_尚硅谷_Kafka_消费者_指定offset

340

5分47秒

56_尚硅谷_Kafka_消费者_按照时间消费

420

4分3秒

57_尚硅谷_Kafka_消费者_消费者事务

390

3分6秒

58_尚硅谷_Kafka_消费者_数据积压

500

17分15秒

59_尚硅谷_Kafka_每日回顾（上）

420

17分41秒

60_尚硅谷_Kafka_每日回顾（下）

420

4分31秒

61_尚硅谷_Kafka_监控_MySQL环境准备

390

2分21秒

62_尚硅谷_Kafka_监控_Kafka环境准备

480

6分37秒

63_尚硅谷_Kafka_监控_Kafka-Eagle安装

370

5分6秒

64_尚硅谷_Kafka_监控_Kafka-Eagle监控页面

410

14分56秒

65_尚硅谷_Kafka_Kraft模式

430

7分43秒

66_尚硅谷_Kafka_集成_Flume环境准备

430

9分0秒

67_尚硅谷_Kafka_集成_Flume生产者

360

6分57秒

68_尚硅谷_Kafka_集成_Flume消费者

440

10分15秒

69_尚硅谷_Kafka_集成_Flink生产者

390

5分5秒

70_尚硅谷_Kafka_集成_Flink消费者

360

9分34秒

71_尚硅谷_Kafka_集成_SpringBoot生产者

360

4分11秒

72_尚硅谷_Kafka_集成_SpringBoot消费者

340

8分46秒

73_尚硅谷_Kafka_集成_Spark生产者

410

12分38秒

74_尚硅谷_Kafka_集成_Spark消费者

390

2分39秒

75_尚硅谷_Kafka_调优_内容简介

350

18分6秒

76_尚硅谷_Kafka_调优_硬件选择

370

9分34秒

77_尚硅谷_Kafka_调优_生产者调优

300

10分49秒

78_尚硅谷_Kafka_调优_Broker调优

350

9分14秒

79_尚硅谷_Kafka_调优_消费者调优

350

11分22秒

80_尚硅谷_Kafka_调优_总体调优

380

15分35秒

81_尚硅谷_Kafka_调优_生产者压力测试

350

5分44秒

82_尚硅谷_Kafka_调优_消费者压力测试

370

5分35秒

83_尚硅谷_Kafka_源码_环境准备

340

2分53秒

84_尚硅谷_Kafka_源码_生产者原理回顾

270

24分32秒

85_尚硅谷_Kafka_源码_生产者初始化

330

20分13秒

86_尚硅谷_Kafka_源码_生产者发送数据到缓存

350

14分42秒

87_尚硅谷_Kafka_源码_生产者Sender线程

340

4分53秒

88_尚硅谷_Kafka_源码_消费者原理回顾

360

19分31秒

89_尚硅谷_Kafka_源码_消费者初始化

340

5分14秒

90_尚硅谷_Kafka_源码_消费者订阅主题

350

2分56秒

91_尚硅谷_Kafka_源码_消费总体流程

300

5分58秒

92_尚硅谷_Kafka_源码_消费者组初始化流程

410

10分7秒

93_尚硅谷_Kafka_源码_消费者组拉取和处理数据

360

2分51秒

94_尚硅谷_Kafka_源码_消费者Offset提交

390

6分56秒

95_尚硅谷_Kafka_源码_服务器端源码

390

1分54秒

96_尚硅谷_Kafka_课程结束

410

39_尚硅谷_Kafka_Broker_文件清除策略

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐