大数据SRE

极客运维

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

桔妹导读： LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验，是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管控、监控告警、资源治理等核心场景，经历过大规模集群、海量大数据的考验。内部满意度高达90%的同时，还与多家知名企业达成商业化合作。 

滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台

LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验，是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管控、监控告警、资源治理等核心场景，经历过大规模集群、海量大数据的考验。内部满意度高达90%的同时，还与多家知名企业达成商业化合作。

线上某个kafka集群由于种种原因，从 24 * 机型 A 置换迁移为 12 * 机型 B。从集群总资源维度看，排除其他客观因素，置换后，CPU总核数少了一半，使用率上升其实也是预期之内的。事实上置换后，集群CPU使用率确实也由原有的 20%提升至 40%，上升了约 1 倍多。但置换后，cpu sys使用率均值约达到了 12%，较为抢眼，系统相关服务却并无异常，令人有些困惑。

一次CPU sys上涨引发对kafka PageCache的思考

消费组应该算是kafka中一个比较有特色的设计模式了，而他的重平衡机制也是我们在实际生产使用中，无法避免的一个问题。

kafka消费组及重平衡的影响

之前和大家聊过kafka是如何保证消息不丢失的，今天再讲讲在不丢消息的同时，如何实现精确一次处理的语义实现。

kafka生产者的幂等和事务处理

今天和大家聊一下，kafka对于消息的可靠性保证。作为消息引擎组件，保证消息不丢失，是非常重要的。


kafka是如何保证消息不丢失的

今天继续和大家聊一下，kafka的各种发行版。kafka历经数年的发展，从最初纯粹的消息引擎，到近几年开始在流处理平台生态圈发力，衍生出了各种不同特性的版本。


kafka的发行版选择

上篇文章我们了解到，如果一个topic分区越多，理论上整个集群所能达到的吞吐量就越大。那么，分区数越多就越好吗？显然不是。今天我们来聊下kafka在分区数过多的情况下，会带来哪些弊端。


kafka分区数过多引发的弊端

要讲 kafka 分区数和吞吐量的关系，首先得理解什么是分区(partition)。

kafka分区数和吞吐量的关系

你可以使用Dr. Elephant来分析你的作业（只需在搜索页贴入你的作业ID），就可以知道你的作业有哪些地方需要优化。

【Dr.Elephant中文文档-8】调优建议

Dr.Elephant这个项目希望构建一个可以自动优化hadoop mapreduce相关函数的调优框架。在这种情况下，是为了函数消耗最少的资源来完成作业。我们还希望在未来的版本将作业时间也作为函数资源消耗的参考指标。我们使用迭代算法和粒子群优化算法进行自动调优。这些迭代通过分析作业的多次运行结果来完成，我们已经在15-20次的作业中优化了20-30%的资源。

【Dr.Elephant中文文档-7】自动调优

我们将作业的资源使用量定义为任务容器大小和任务运行时间的乘积。因此，作业的资源使用量可以定义为mapper和reducer任务的资源使用量总和。

【Dr.Elephant中文文档-6】度量指标和启发式算法

这个页面包含了集群最近的统计信息。列出了最近 24 小时分析过的作业数量，可进行优化的作业数量和待优化的作业数量。

【Dr.Elephant中文文档-5】用户指南

为了在本地部署Dr.Elephant测试，你需要安装Hadoop(version 2.x)或者Spark(Yarn mode, version > 1.4.0)，以及资源管理服务和历史作业服务（可以用伪分布式）。关于伪分布式模式在 YARN 上运行 MapReduce 作业相关说明可以在这里(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)[1]找到。

【Dr.Elephant中文文档-4】开发者指南

Step 1： 在 GitHub 上注册一个账号，并 fork 一份Dr. Elephant项目代码。

【Dr.Elephant中文文档-3】快速安装说明

Dr. Elephant依赖于 YARN 的资源管理服务器和历史作业记录服务器，来获取作业详细信息和记录。YARN 作业及其分析的详细信息将存储在当前配置的后端 mysql 中。因此在运行Dr. Elephant前，必须安装好 MySQL 和 hadoop 2。从#162开始，将不再支持JAVA 6。

【Dr.Elephant中文文档-2】管理员指南

Dr. Elephant是一个Hadoop和Spark的性能监控和调优工具。它能自动采集作业的度量指标并分析他，然后以简单明了的方式展现出来。Dr. Elephant的设计思想是通过作业分析结果来指导开发者进行作业调优，从而提升开发者效率和集群资源的利用率。Dr. Elephant使用了一组可配置的插件式启发算法来分析hadoop和spark作业并提供优化建议。然后针对结果数据来建议如何调整作业。这个算法还计算了作业的许多其他度量标准，用来为集群作业优化提供了有价值的参考信息。

【Dr.Elephant中文文档-1】Dr. Elephant简介

通过之前一系列的文章叙述，想必大家都对dr.elephant有了一个较为清晰的了解。通过自己线上经验的积累，以及和一些读者的交流，我汇总了一些大家在实战中遇到的问题和解决方案。


Dr.Elephant实战常见问题及解决方法

生产环境的kafka集群扩容，是一个比较常见的需求和操作。然而kafka在新增节点后并不会像elasticsearch那样感知到新节点加入后，自动将数据reblance到整个新集群中，因此这个过程需要我们手动分配。

kafka集群扩容后的数据均衡

生产环境kafka集群，在数据量大的情况下，经常会出现单机各个磁盘间的占用不均匀情况。


kafka数据存储目录间迁移

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了极客运维专栏，为你提供了极客运维的相关文章，致力于帮助开发者快速成长与发展。

极客运维

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐