Kafka 提供哪些日志清理策略？

文章来源：企鹅号 - 码农架构

在Kafka 的日志管理器中会有一个专门的日志删除任务来周期性地检测和删除不符合保留条件的日志分段文件，这个周期可以通过 broker 端参数来配置，默认值为300000，即5分钟。当前日志分段的保留策略有3种：

基于时间的保留策略

基于日志大小的保留策略

基于日志起始偏移量的保留策略。

1. 基于时间

日志删除任务会检查当前日志文件中是否有保留时间超过设定的阈值来寻找可删除的日志分段文件集合，如下图所示。阈值可以通过 broker 端参数、和来配置，其中的优先级最高，次之，最低。默认情况下只配置了参数，其值为168，故默认情况下日志分段文件的保留时间为7天。

查找过期的日志分段文件，并不是简单地根据日志分段的最近修改时间 lastModifiedTime 来计算的，而是根据日志分段中最大的时间戳 largestTimeStamp 来计算的。因为日志分段的 lastModifiedTime 可以被有意或无意地修改，比如执行了 touch 操作，或者分区副本进行了重新分配，lastModifiedTime 并不能真实地反映出日志分段在磁盘的保留时间。

要获取日志分段中的最大时间戳 largestTimeStamp 的值，首先要查询该日志分段所对应的时间戳索引文件，查找时间戳索引文件中最后一条索引项，若最后一条索引项的时间戳字段值大于0，则取其值，否则才设置为最近修改时间 lastModifiedTime。

2. 基于日志起始偏移量

一般情况下，日志文件的起始偏移量 logStartOffset 等于第一个日志分段的 baseOffset，但这并不是绝对的，logStartOffset 的值可以通过 DeleteRecordsRequest 请求（比如使用 KafkaAdminClient 的 deleteRecords() 方法、使用 kafka-delete-records.sh 脚本）、日志的清理和截断等操作进行修改。

基于日志起始偏移量的保留策略的判断依据是某日志分段的下一个日志分段的起始偏移量 baseOffset 是否小于等于 logStartOffset，若是，则可以删除此日志分段。如上图所示，假设 logStartOffset 等于25，日志分段1的起始偏移量为0，日志分段2的起始偏移量为11，日志分段3的起始偏移量为23，通过如下动作收集可删除的日志分段的文件集合 deletableSegments：

从头开始遍历每个日志分段，日志分段1的下一个日志分段的起始偏移量为11，小于 logStartOffset 的大小，将日志分段1加入 deletableSegments。

日志分段2的下一个日志偏移量的起始偏移量为23，也小于 logStartOffset 的大小，将日志分段2加入 deletableSegments。

日志分段3的下一个日志偏移量在 logStartOffset 的右侧，故从日志分段3开始的所有日志分段都不会加入 deletableSegments。

收集完可删除的日志分段的文件集合之后的删除操作同基于日志大小的保留策略和基于时间的保留策略相同，这里不再赘述。

3. 基于日志大小

日志删除任务会检查当前日志的大小是否超过设定的阈值来寻找可删除的日志分段的文件集合，如下图所示。阈值可以通过 broker 端参数来配置，默认值为-1，表示无穷大。注意配置的是 Log 中所有日志文件的总大小，而不是单个日志分段（确切地说应该为 .log 日志文件）的大小。单个日志分段的大小由 broker 端参数来限制，默认值为1073741824，即 1GB。

基于日志大小的保留策略与基于时间的保留策略类似，首先计算日志文件的总大小 size 和阈值的差值 diff，即计算需要删除的日志总大小，然后从日志文件中的第一个日志分段开始进行查找可删除的日志分段的文件集合。查找出它之后就执行删除操作，这个删除操作和基于时间的保留策略的删除操作相同，这里不再赘述。

总结

Kafka 将消息存储在磁盘中，为了控制磁盘占用空间的不断增加就需要对消息做一定的清理操作。Kafka 中每一个分区副本都对应一个 Log，而 Log 又可以分为多个日志分段，这样也便于日志的清理操作。Kafka 提供了删除的方式来清理日志：

日志删除：按照一定的保留策略直接删除不符合条件的日志分段

其实Kafka还有一种日志清理策略那就是通过针对每个消息的 key 进行整合，对于有相同 key 的不同 value 值，只保留最后一个版本的方式来对Kafka日志进行清理。对于压缩的细节这里不再赘述。

往期推荐

Kafka 中所谓的 ‘零拷贝’ 技术到底是什么？

Kafka 是怎么存储的？为什么速度那么快？

Kafka在哪些场景下会造成重复消费或消息丢失？

Kafka 中的分区器、序列化器、拦截器是否了解？它们之间的处理顺序是什么？

分享、点赞、在看，给个3连击呗！

发表于: 2021-02-282021-02-28 08:30:17
原文链接：https://kuaibao.qq.com/s/20210228A01L8K00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Kafka 提供哪些日志清理策略？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐