开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么在kafka 2.1.1中，zstd比gzip慢5倍？

在Kafka 2.1.1中，zstd比gzip慢5倍的原因主要有以下几点：

压缩算法差异：zstd和gzip是两种不同的压缩算法。zstd是一种高效的无损压缩算法，具有更高的压缩率和更快的解压缩速度，但压缩速度较慢。gzip是一种较为常见的压缩算法，虽然速度相对较快，但压缩率较低。
压缩级别选择：Kafka提供了不同的压缩级别供选择，压缩级别越高，压缩率越高，但压缩速度也越慢。在Kafka 2.1.1中，默认的压缩级别可能是高级别，导致zstd压缩速度明显变慢。
硬件资源限制：zstd在压缩和解压缩时需要更多的CPU资源和内存，如果硬件资源不足，会影响压缩速度。
数据特征：不同类型的数据对不同的压缩算法有不同的适应性。可能在Kafka 2.1.1的测试场景中，数据特征使得zstd的压缩速度相对较慢，而gzip可能更适合这种数据类型。

对于优化zstd压缩速度的问题，可以考虑以下几点：

降低压缩级别：如果对压缩率要求不高，可以选择较低的压缩级别，以提高压缩速度。
提供更多的硬件资源：增加CPU核心数、提升内存容量等，以提供更多的资源供zstd使用。
调整数据特征：根据实际数据特点，尝试使用其他的压缩算法进行比较和优化。

需要注意的是，以上提供的答案仅针对kafka 2.1.1中zstd比gzip慢5倍的情况进行分析，并不涉及云计算相关的知识或推荐腾讯云产品。若有其他问题或需求，欢迎继续提问。

相关搜索:在并行for循环中部署比常规for循环慢。为什么？在Tensorflow中，GPU的工作速度比CPU慢，为什么？为什么在DataTemplate中使用UserControl比直接使用xaml要慢？为什么CNN在python中的运行速度比Matlab慢？为什么在Python3中使用True比使用1慢在分块矩阵乘法中，为什么CUDA共享内存比全局内存慢？为什么在C#中多线程快速排序比单线程慢在python中,为什么从数组中读取比从列表中读取要慢？为什么python程序在mac os终端上运行比在虚拟机(Ubuntu)上运行慢？为什么在指定ROWNUM时SQL查询比在WHERE子句中指定日期范围时慢在F#中，为什么地图的读取速度比字典慢(来自我所附的基准测试)为什么这个列表的理解比在Python中使用for循环有条件地初始化要慢？Scrapy在性能较好的设备上的性能比在较差的设备上要慢，我不明白为什么为什么在C#?s中添加2D向量结构可能比添加3D向量结构慢为什么在一个较大的矩阵$M$上进行NumPy减法比将$M$分成较小的矩阵然后减法要慢？为什么Math.imul()在输入很少的情况下比常规乘法(*)快，而在大量输入的情况下要慢呢？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Kafka 重要知识点

重平衡本质上是一种协议，规定了消费者组下的所有消费者，按照什么策略消费 Topic

04

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

作者 | Renato Losio 译者 | 平川策划 | 丁晓昀最近，亚马逊前副总裁 Adrian Cockcroft 在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处，这在社区中引发了关于压缩算法的讨论。其他大公司，包括 Twitter 和 Honeycomb，也分享了使用 zstd 获得的收益。最近，Dan Luu 分析了推特存储节省的情况，并在推特上发起了一场对话：我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twi

03

保姆级Kafka 降本实用指南

根据 Gartner 的预测，预计在 2021 年，全球终端用户在公共云服务上的支出将在 2020 年的 2700 亿美元基础上增长 23%，达到 3320 亿美元。

03

Uber是如何低成本构建开源大数据平台的？

作者 | Uber Engineering 译者 | 王强策划 | 钰莹随着 Uber 业务的扩张，为公司业务提供支持的基础数据池也在飞速膨胀，其处理成本水涨船高。当大数据成为我们最大的运维支出项目之一后，我们启动了一项降低数据平台成本的计划。该计划将问题分解为三大分支：平台效率、供应和需求。在这篇文章中，我们将讨论 Uber 为提高数据平台效率和降低成本所做的一系列工作。 1大数据文件格式优化我们的大部分 Apache®Hadoop®文件系统（HDFS）空间都被 Apache Hive 表占用了。

03

【Kafka专栏 10】Kafka消息压缩机制：从带宽保存到存储成本降低

在大数据和实时流处理的场景中，Apache Kafka作为一个高性能、高吞吐量的分布式发布-订阅消息系统，被广泛应用于各种业务场景。然而，随着数据量的不断增长，如何有效地存储和传输这些数据成为了一个亟待解决的问题。Kafka的消息压缩机制正是为了解决这一问题而设计的。本文将详细解析Kafka消息压缩的工作原理、支持的压缩算法以及在实际应用中的使用策略。

01

kafka学习笔记

kafka相关概念图重点： kafka里的副本针对的是分区来做的，副本不提供对外的服务，只记录消息数据，kafka通过对topic分区来实现消息系统的负载。

03

Kafka 降本实用指南

作者 | Elad Leev 译者 | 王强策划 | Tina 本文最初发布于 leevs.dev 网站，经原作者授权由 InfoQ 中文站翻译并分享。根据 Gartner 的预测，预计在 2021 年，全球终端用户在公共云服务上的支出将在 2020 年的 2700 亿美元基础上增长 23%，达到 3320 亿美元。 Kafka 的市场增长趋势也是一样的。世界各地的组织都在使用 Kafka 作为主要的流处理平台来大规模收集、处理和分析数据。随着组织的发展和壮大，数据规模也在增长，随之而来的云成本同样

01

kafka基础-文末思维导图

**文末尾有思维导图**，文字就是思维导图的内容，如果不想看着，**可以直接拉到末尾，查看思维导图！**

02

kafka基础-文末思维导图kafka基础

文末尾有思维导图，文字就是思维导图的内容，如果不想看着，可以直接拉到末尾，查看思维导图！

04

聊聊 Kafka 那点破事！

Kafka作为一款开源的消息引擎，很多人并不陌生，但深入其源码的同学估计不多，除非你是中间件团队消息系统维护者。但术业有专攻，市面上那么多开源框架且每个框架又经常迭代升级，花精力深入了解每一个框架源码不太现实，本文会以业务视角罗列工作中大家需要熟知的一些知识

02

打车巨头Uber是如何构建大数据平台？

大家好，我是一哥，最近滴滴出的技术少了，给大家分享一下Uber的大数据平台是如何建设的？

05

业务视角谈谈Kafka（第一篇）

https://github.com/aalansehaiyang/technology-talk

02

Milvus 2.1 版本更新 - 简单可信赖、性能持续提升

继年初发布 Milvus 2.0 版本之后，在数百位 Milvus 社区贡献者六个月的共同努力下，我们在早些时候发布了 Milvus 2.1 版本[1]，经过两个月的数次迭代，版本趋于稳定，被国内外头部厂商信任和选择使用。

02

LinuxShell命令tar

tar 是 GNU 项目中的一个归档工具，其创建可以追溯到磁带机的年代，可谓历史悠久。虽然 tar 工具最初是用于磁带机的数据归档，但其现在也支持磁盘的数据归档，而且仍然保留着对磁带机的兼容。tar 工具一路发展过来，经过很多大佬的打磨，功能强大，现在已经是 Linux 系统上默认的数据归档工具。

02

【字节跳动】第十六讲走进消息队列｜青训营笔记

创建集群 --> 新增 Topic --> 编写生产者逻辑 --> 编写消费者逻辑

01

深入浅出 ClickHouse 物化视图

虽然官方文档记录了 ClickHouse 物化视图很多详细信息，但是使用物化视图还是有很多小细节需要注意，更别说一些最佳实践。本文总结了 ClickHouse 物化视图使用上的各种问题，并展示三个实际案例，芝士，与你分享！

01

Zookeeper和Kafka环境搭建总结

由于项目需要涉及到zookeeper和Kafka的使用，快速做了一篇笔记，方便小伙伴们搭建环境。

03

Kafka入门实战教程（5）：吞吐量与可靠性的实践

在实际环境中，用户似乎总是愿意用较小的延时增加的代价，去换取 TPS 的显著提升。毕竟，从 2ms 到 10ms 的延时增加通常是可以忍受的。

01

深入浅出 ClickHouse 物化视图

数据库查询语言（query language）是数据库管理系统（DBMS）提供给用户和数据库交互的工具，查询语言分为三类 [^1]：

05

Kafka：MirrorMaker-V1搭建步骤

通过上一篇文章Kafka：MirrorMaker-V1我们已经知道了MirrorMaker-V1的基本概念，这篇文章我们来给Kafka-cluster搭建一个mirror。

02

Kafka精进 | Producer端核心参数及调优建议

在前面文章《Kafka精进 | 一文读懂Producer消息发送机制》中，我们从Kafka消息结构、序列化器、分区器及消息缓冲池等方面介绍了Producer端的原理，回顾示意图如下：

03

Kafka快速入门（生产者）同步异步发送、分区、消息精确一次发送、幂等性、事务

在消息发送的过程中，涉及到了两个线程——main 线程和 Sender 线程。在 main 线程中创建了一个双端队列 RecordAccumulator。main 线程将消息发送给 RecordAccumulator，Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Kafka Broker。

02

Kafka - 图解生产者消息发送流程

在消息发送的过程中，涉及到了两个线程:main线程和Sender线程，以及一个线程共享变量:RecordAccumulator。

03

PostgreSQL16中pg_dump的LZ4和ZSTD压缩

LZ4和ZSTD压缩算法合入了PG16。LZ4补丁的作者是Georgios Kokolatos。由Tomas Vondra提交。由Michael Paquier、Rachel Heaton、Justin Pryzby、Shi Yu 和 Tomas Vondra 审阅。提交消息是：

03

kafka基本命令_kafka controller

kafka-console-producer.sh 脚本通过调用 kafka.tools.ConsoleProducer 类加载命令行参数的方式，在控制台生产消息的脚本。

03

进击消息中间件系列（二十）：Kafka 生产调优最佳实践

服务器台数= 2 * （生产者峰值生产速率 * 副本 / 100） + 1，即 2 * （20m/s * 2 / 100） + 1= 3 台。建议 3 台服务器。

04

kafka key的作用一探究竟，详解Kafka生产者和消费者的工作原理！

每个分区（Partition）都是有序的(所以每一个Partition内部都是有序的)，不变的记录序列，这些记录连续地附加到结构化的提交日志中。分区中的每个记录均分配有一个称为偏移的顺序ID号，该ID 唯一地标识分区中的每个记录。

04

速度与压缩比如何兼得？压缩算法在构建部署中的优化

压缩在数据传输和存储过程中经常扮演着十分重要的角色，因此提高压缩的效率可以帮助我们节省时间和降低存储成本。本文介绍了压缩算法的优化在构建部署平台的应用，能够帮助研发团队提高研发和交付效率。

01

腾讯面试：如何提升Kafka吞吐量？

Kafka 是一个分布式流处理平台和消息系统，用于构建实时数据管道和流应用。它最初由 LinkedIn 开发，后来成为 Apache 软件基金会的顶级项目。

00

Kafka精进 | Broker服务端核心参数解析

关于Kafka，我们在之前的文章里也介绍，简而言之Kafka是一个分布式消息引擎与流处理平台，经常用做企业的消息总线、实时数据管道，有时还可以当做存储系统来用。基本架构如下：

01

Kafka - 3.x Producer 生产者最佳实践

对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR中的follower全部接收成功。所以Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置

03

Kafka组成&使用场景---Kafka从入门到精通（四）

上篇文章介绍了kafka的设计概要，有点对点的队列模式，和消费生产的topic模式，kafka有着高吞吐，低延迟，伸缩性，消息持久化，负载均衡故障转移特性，kafka跟其他处理内存方式不同，内存高命中率来保证发送消息直接在内存操作，而持久化直接交给系统去处理，并且持久化采用的是顺序IO，sendFile零拷贝来保证高吞吐。Kafka的负载均衡则是采用broken和topic每个都有一个master和flower，每个topic的matser和flower不在同一个broken，这样保证一个服务器宕机，其他的flower也会存储数据，不会丢失，故障转移则是会通过会话心跳的机制跟zookeeper来实现，通过服务注册入zookeeper中，一旦服务器停止，则会选举新的服务。伸缩性也是由zookeeper来配合的，因为有多个服务，这时候则需要考虑多个服务的一致性，服务的无状态或者轻量级状态可以保证效率更高，所以他们统一吧状态写入zookeeper保存。

01

Kafka-3.配置-Topic Config

和主题有关的配置既有服务器的默认值，也有可选的per-topic的覆盖值。如果没有per-topic的配置值，就用服务器的默认值。覆盖值能在创建主题的时候用一个或多个--config选项来设置。以下示例用一个名为my-topic的主题，其中包含自定义最大消息大小和刷新率：

04

Kafka 架构分析（1）

地址：http://kafka.apache.org/documentation/

02

3.【kafka运维】Topic的生产和发送运维脚本(3)

4.2 生产有key消息加上属性--property parse.key=true

02

POSTGRESQL 15 pg_basebackup 新功能，LOCAL backup 与数据强力压缩

与MYSQL 不一样，开源XTRABACKUP 的备份软件无法跟上MYSQL 版本的更迭，PG 这点做的是一贯的好。从来没有让人失望过。

01

kafka(二)Kafka快速入门

脚本 kafka]$ bin\kafka-console-producer.sh 命令选项

03

图解Kafka Producer常用性能优化配置参数

涉及到消息发送是如何工作的，本节首先将罗列参数，做简单说明，然后再给出运作图，进一步阐述其工作机制。

01

LinuxShell下压缩与解压

本文主要介绍 Linux Shell 下常规压缩与解压，即独立的单个压缩包。对于分巻压缩与解压，请出门左拐至LinuxShell下分卷压缩与解压。

02

使用 Python 对数据进行压缩

之前在工作中遇到一个需求，需要在手机小程序端获取到微信小商店店铺的所有商品数据。由于当时我们没有在后台维护用户的商品数据，选择的解决方案是现场调用商品列表接口，然后缓存在 Redis 里。

00

使用Python对数据进行压缩

之前在工作中遇到一个需求，需要在手机小程序端获取到微信小商店店铺的所有商品数据。由于当时我们没有在后台维护用户的商品数据，选择的解决方案是现场调用商品列表接口，然后缓存在 Redis 里。鉴于 Redis 的内存还是比较宝贵的，而用户的商品数据（转化为 json 格式后）又是一些比较有规律的文本数据，比较适合进行数据压缩，于是我调研了一下 Python 中的数据压缩的方案。

04

SpringBoot-Kafka（生产者事务、手动提交offset、定时消费、消息转发、过滤消息内容、自定义分区器、提高吞吐量）

新建一个 ConsumerAwareListenerErrorHandler 类型的异常处理方法，用@Bean注入，BeanName默认就是方法名，然后我们将这个异常处理器的BeanName放到@KafkaListener注解的errorHandler属性里面，当监听抛出异常的时候，则会自动调用异常处理器，

07

腾讯面试：Kafka如何处理百万级消息队列？

在今天的大数据时代，处理海量数据已成为各行各业的标配。特别是在消息队列领域，Apache Kafka 作为一个分布式流处理平台，因其高吞吐量、可扩展性、容错性以及低延迟的特性而广受欢迎。但当面对真正的百万级甚至更高量级的消息处理时，如何有效地利用 Kafka，确保数据的快速、准确传输，成为了许多开发者和架构师思考的问题。本文将深入探讨 Kafka 的高级应用，通过10个实用技巧，帮助你掌握处理百万级消息队列的艺术。

01

初识 Kafka Producer 生产者

根据 KafkaProducer 类上的注释上来看 KafkaProducer 具有如下特征：

03

Apache Kafka设计理念探究

创造一个分布式的实时流处理平台，也正是因为这个原因，Kafka选择了将日志分区和消费者群组模型。

01

Kafka 分级存储在腾讯云的实践与演进

腾讯云消息队列 Kafka 内核负责人鲁仕林为大家带来了《Kafka 分级存储在腾讯云的实践与演进》的精彩分享，从 Kafka 架构遇到的问题与挑战、Kafka 弹性架构方案类比、Kafka 分级存储架构及原理以及腾讯云的落地与实践四个方面详细分享了 Kafka 分级存储在腾讯云的实践与演进。

01

云原生场景下如何实现编译加速？

来源 | OSCHINA 社区作者 | 京东云开发者-京东零售王雷原文链接：https://my.oschina.net/u/4090830/blog/7091588 背景云原生下的流水线是通过启动容器来运行具体的功能步骤，每次运行流水线可能会被调度到不同的计算节点上。这会导致一个问题：容器运行完是不会保存数据的，每当流水线重新运行时，又会重新拉取代码、编译代码、下载依赖包等等。在云原生场景下，不存在本地宿主机编译代码、构建镜像时缓存的作用，大大延长了流水线运行时间，浪费很多不必要的时间、网络和计算

01

Kafka为什么吞吐量大、速度快？

Kafka是大数据领域无处不在的消息中间件，目前广泛使用在企业内部的实时数据管道，并帮助企业构建自己的流计算应用程序。

02

Web基础配置篇（十四）: Kafka单机、集群的安装配置及使用

Apache Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列，可以处理大量的数据，并使您能够将消息从一个端点传递到另一个端点。 Kafka适合离线和在线消息消费。 Kafka消息保留在磁盘上，并在群集内复制以防止数据丢失。 Kafka构建在ZooKeeper同步服务之上。它与Apache Storm和Spark非常好地集成，用于实时流式数据分析。

01

Containerd 1.5 发布：重磅支持 docker-compose！

2021 年 5 月 4 日，Containerd 1.5 正式发布[1]，该版本默认启用了 OCIcrypt 解密功能，并引入了对 NRI、zstd 和 FreeBSD jails 的支持，同时还简化了对 Containerd 的贡献流程。下面就来看看具体更新了哪些功能吧。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭