开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

有没有办法在kafka consumer中只读新的(未读的)消息？

在Kafka中，可以通过设置消费者的偏移量（offset）来控制消费的消息范围。偏移量是一个唯一标识，用于标记消费者在特定分区中的位置。默认情况下，消费者会从上次提交的偏移量开始消费消息。

要在Kafka消费者中只读取新的（未读的）消息，可以采取以下几种方法：

使用自动提交偏移量：Kafka消费者可以配置为自动提交偏移量。这意味着消费者会自动将已消费的消息的偏移量提交到Kafka集群，下次启动时会从上次提交的偏移量开始消费。这样可以确保只读取新的消息。腾讯云的Kafka产品支持自动提交偏移量，可以参考腾讯云Kafka产品文档（https://cloud.tencent.com/document/product/597）了解更多信息。
手动提交偏移量：另一种方法是手动提交消费者的偏移量。在消费者处理完一批消息后，可以手动提交偏移量，然后在下次启动时从提交的偏移量开始消费。这样可以确保只读取新的消息。腾讯云的Kafka产品同样支持手动提交偏移量，可以参考腾讯云Kafka产品文档（https://cloud.tencent.com/document/product/597）了解更多信息。
使用Kafka消费者组：Kafka支持将多个消费者组织成一个消费者组，每个消费者组都有自己的消费者实例。在同一个消费者组中，每个分区只能由一个消费者实例消费。当有新的消息到达时，Kafka会将消息分配给消费者组中的一个消费者实例。这样可以确保每个消费者实例只读取新的消息。腾讯云的Kafka产品支持消费者组，可以参考腾讯云Kafka产品文档（https://cloud.tencent.com/document/product/597）了解更多信息。

总结起来，要在Kafka消费者中只读取新的消息，可以使用自动提交偏移量、手动提交偏移量或者使用消费者组的方式来实现。以上是一些常见的方法，具体的实现方式可以根据实际需求和场景进行选择。

相关搜索:删除kafka topic __consumer_offsets中的特定消息在新的Kafka Consumer API versions >0.9中，哪个属性取代了consumer.timeout.ms？在终端- kafka- Avro -console-consumer alternative中读取来自Kafka的avro消息如何在kafka consumer中消费和解析不同的Avro消息有没有办法使用Kafka Confluent REST API生成带有头部的Kafka消息？非静音参与事件中的未读消息在kafka中，当产生具有事务性的消息时，Consumer offset加倍 Php中的IMAP:标记未读/未看到的消息 react聊天应用程序中的已读和未读消息状态有没有办法在文件中添加新的行？他们有没有办法在新的专栏中添加新的NER标签？有没有办法在spring中记录所有传入的kafka请求？有没有办法在没有消费者的情况下阅读Kafka topic的消息？如何从Apache Nifi中上次提交的偏移量读取consumer中的Kafka消息？有没有办法使用REST API从GMAIL邮箱中获取最旧的未读邮件在Postgres中选择当前用户id未读的聊天消息 Codename One -在应用程序图标中显示未读消息的数量消息密钥在Kafka流中的长度在mongodb中，有没有办法统计每个集合的读/写次数？在新的Kafka版本中删除Zookeeper

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Kafka 杂谈

首先，此篇文章会有很多地方会和 RocketMQ 比较，不太熟悉 RocketMQ 可以去看看我之前写的RocketMQ基础概念剖析&源码解析，先有个大概的印象，可能会帮助你更好的理解 Kafka。

01

线上kafka消息堆积，consumer掉线，怎么办？

最近处理了一次线上故障，具体故障表现就是kafka某个topic消息堆积，这个topic的相关consumer全部掉线。

03

消息过滤

在实际应用中，往往对一个Topic下的消息还会有不同的细分，消费方会根据细分的类型消费Topic中特定的一部分消息，这就涉及到了消息过滤。

02

关于MQ面试的几件小事 | 消息积压在消息队列里怎么办

场景：几千万条数据在MQ里积压了七八个小时，从下午4点多，积压到了晚上很晚，10点多，11点多。线上故障了，这个时候要不然就是修复consumer的问题，让他恢复消费速度，然后傻傻的等待几个小时消费完毕。这个肯定不行。一个消费者一秒是1000条，一秒3个消费者是3000条，一分钟是18万条，1000多万条。所以如果你积压了几百万到上千万的数据，即使消费者恢复了，也需要大概1小时的时间才能恢复过来。解决方案：这种时候只能操作临时扩容，以更快的速度去消费数据了。具体操作步骤和思路如下： ①先修复consumer的问题，确保其恢复消费速度，然后将现有consumer都停掉。

03

MQ消息中间件，面试能问些什么？

为什么使用消息队列？消息队列的优点和缺点？kafka、activemq、rabbitmq、rocketmq都有什么优缺点？

03

Apache Kafka内核深度剖析

目前来说市面上可以选择的消息队列非常多，像activemq，rabbitmq，zeromq已经被大多数人耳熟能详，特别像activemq早期应用在企业中的总线通信，基本作为企业级IT设施解决方案中不可或缺的一部分。目前来说Kafka已经非常稳定，并且逐步应用更加广泛，已经算不得新生事物，但是不可否认Kafka一枝独秀如同雨后春笋，非常耀眼，今天我们仔细分解一下Kafka，了解一下它的内幕。以下的内容版本基于当前最新的Kafka稳定版本2.4.0。文章主要包含以下内容：

01

超200万？约翰斯·霍普金大学数据错误！——谈谈如何保证实时计算数据准确性

作为全球新冠疫情数据的实时统计的权威，约翰斯—霍普金斯大学的实时数据一直是大家实时关注的，也是各大媒体的主要数据来源。在今天早上的相当一段长的时间，霍普金斯大学的全球疫情分布大屏中显示，全球确诊人数已经突破200万。

02

Kafka如何保证百万级写入速度已经保证不丢失不重复消费

“这篇文章来聊一下Kafka的一些架构设计原理，这也是互联网公司面试时非常高频的技术考点。

04

kafka消息面试题

按消息键保序策略：一旦消息被定义了 Key，那么你就可以保证同一个 Key 的所有消息都进入到相同的分区里面，由于每个分区下的消息处理都是有顺序的，故这个策略被称为按消息键保序策略

01

探究kafka——概念篇

因为消息的读取进度由offset提供，offset可以由消费者自己维护也可以维护在zookeeper里，但是当消息消费后consumer挂掉， offset没有即时写回，就有可能发生重复读的情况，这种情况同样可以通过调整commit offset周期、阈值缓解，甚至消费者自己把消费和commit offset做成一个事务解决，但是如果你的应用不在乎重复消费，那就干脆不要解决，以换取最大的性能。

01

Kafka的实现细节

在Kafka中的每一条消息都有一个topic。一般来说在我们应用中产生不同类型的数据，都可以设置不同的主题。一个主题一般会有多个消息的订阅者，当生产者发布消息到某个主题时，订阅了这个主题的消费者都可以接收到生产者写入的新消息。

01

【深度知识】Kafka原理入门和详解

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

02

MQ消费失败怎么办

滴滴滴，就在本周遇见一个kafka下游消费失败，但是下游持久化失败，兜底任务不起作用。笔者对RabbitMQ了解和实战比较多。如果是RabbitMQ的话，我们一般会这样处理：

01

如何保证消息队列的顺序性？

其实这个也是用 MQ 的时候必问的话题，第一看看你了不了解顺序这个事儿？第二看看你有没有办法保证消息是有顺序的？这是生产系统中常见的问题。

05

如何保证消息的顺序性？

其实这个也是用 MQ 的时候必问的话题，第一看看你了不了解顺序这个事儿？第二看看你有没有办法保证消息是有顺序的？这是生产系统中常见的问题。

01

Page Cache 与 Kafka 那些事儿

Kafka是大数据领域无处不在的消息中间件，目前广泛使用在企业内部的实时数据管道，并帮助企业构建自己的流计算应用程序。

05

科普：Kafka是啥？干嘛用的？

kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)。

04

【36期】如何保证消息的顺序性？

其实这个也是用 MQ 的时候必问的话题，第一看看你了不了解顺序这个事儿？第二看看你有没有办法保证消息是有顺序的？这是生产系统中常见的问题。

03

消息队列MQ面试专题（rabbitmq）

公众号改版后文章乱序推荐，希望你可以点击上方“Java进阶架构师”，点击右上角，将我们设为★“星标”！这样才不会错过每日进阶架构文章呀。

01

关于MQ面试的几件小事 | 如何保证消息队列高可用和幂等

RabbitMQ基于主从模式实现高可用。RabbitMQ有三种模式：单机模式，普通集群模式，镜像集群模式。（1）单机模式：单机模式就是demo级别的，生产中不会有人使用。（2）普通集群模式普通集群模式就是在多台机器上启动多个rabbitmq实例，每个机器启动一个。但是创建的queue只会放在一个rabbitmq实例上面，但是其他的实例都同步了这个queue的元数据。在你消费的时候，如果连接到了另一个实例，他会从拥有queue的那个实例获取消息然后再返回给你。

02

高吞吐量消息系统—kafka

现在基本上大数据的场景中都会有kafka的身影，那么为什么这些场景下要用kafka而不用其他传统的消息队列呢？例如rabbitmq。主要的原因是因为kafka天然的百万级TPS，以及它对接其他大数据组件的流处理功能，比如可以更好的对接Apache storm。本文只是讨论kafka作为消息队列的功能及一些用法。

02

如何保证消息队列的高可用？

RabbitMQ 是比较有代表性的，因为是基于主从（非分布式）做高可用性的，我们就以 RabbitMQ 为例子讲解第一种 MQ 的高可用性怎么实现。

02

Kafka为什么吞吐量大、速度快？

Kafka是大数据领域无处不在的消息中间件，目前广泛使用在企业内部的实时数据管道，并帮助企业构建自己的流计算应用程序。

02

MQ

为什么使用消息队列啊？消息队列有什么优点和缺点啊？kafka、activemq、rabbitmq、rocketmq都有什么区别以及适合哪些场景？

07

携程异步消息系统实践

今天会跟大家分享一下我们在携程，现在应该是正在推广的一个新的消息系统，主要会偏重于讲一些架构和实现方面的内容。目前我在携程大概一年多都在做新的消息系统Hermes。

03

消息队列面面观

其实就是问问你消息队列都有哪些使用场景，然后你项目里具体是什么场景，说说你在这个场景里用消息队列是什么？

02

Kafka中sequence IO、PageCache、SendFile的应用详解

大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高呢？

04

关于MQ，你了解多少？（干货分享之二）

导语本文梳理笔者 MQ 知识，从消息中间件的基础知识讲起，在有了基础知识后，对市面上各主流的消息中间件进行详细的解析，包括 RabbitMQ、RocketMQ、Kafka、Pulsar，最后再横向对比这几款主流的消息中间件。本篇是系列文章第二篇。 RocketMQ 基础概念 Tag Tag（标签）可以看作子主题，它是消息的第二级类型，用于为用户提供额外的灵活性。使用标签，同一业务模块不同目的的消息就可以用相同 Topic 而不同的 Tag 来标识。比如交易消息又可以分为：交易创建消息、交易完成消息等

04

实时数据仓库必备技术：Kafka知识梳理

为什么使用消息队列? •解耦•异步•削峰 (1) 解耦现有系统A, B, C, 系统B和C需要系统A的数据, 然后我们就修改系统A的代码, 给系统B, C发送数据. 这时系统D也需要系统A的数据,

01

Kafka 消息可靠性

在 Kafka 工作机制一文提及了 Kafka 消息的不可靠性。本文就 Kafka 消息的三种不可靠性（重复、丢失、乱序），分析它们出现的内部原因和解决办法。

04

如何保证消息队列的高可用？

如果有人问到你 MQ 的知识，高可用是必问的。上一讲提到，MQ 会导致系统可用性降低。所以只要你用了 MQ，接下来问的一些要点肯定就是围绕着 MQ 的那些缺点怎么来解决了。

01

Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义

我们都知道Kafka的吞吐量很大，但是Kafka究竟会不会丢失消息呢？又会不会重复消费消息呢？

01

Kafka实战(2)-Kafka消息队列模型核心概念

Kafka发布订阅的对象是主题（Topic），可为每个业务、每个应用甚至是每类数据都创建专属的主题。

03

慌得一逼，Kafka宕机后不再高可用？吓死宝宝了

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。

02

【年后跳槽必看篇-非广告】Kafka核心知识点-第二章

所谓的消息幂等性就是如何保证消息只消费一次不重复消费。这需要从Kafka的多个角度去回答该问题一是要包含Kafka自身的机制，还需要考虑客户端自己的重复处理。

02

kafka0.8--0.11各个版本特性预览介绍

kafka-0.8.2 新特性 producer不再区分同步（sync）和异步方式（async），所有的请求以异步方式发送，这样提升了客户端效率。producer请求会返回一个应答对象，包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点，因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地，在ack=-1模式下需要等待所有的replica副本完成复制时，可以大幅减少等待时间。　　在0.8.2之前，kafka删除topic的功能存在bug。　　在0.8.2之前，comsumer定期提交已经消费的kafka消息的offset位置到zookeeper中保存。对zookeeper而言，每次写操作代价是很昂贵的，而且zookeeper集群是不能扩展写能力的。在0.8.2开始，可以把comsumer提交的offset记录在compacted topic（__comsumer_offsets）中，该topic设置最高级别的持久化保证，即ack=-1。__consumer_offsets由一个三元组< comsumer group, topic, partiotion> 组成的key和offset值组成，在内存也维持一个最新的视图view，所以读取很快。 kafka可以频繁的对offset做检查点checkpoint，即使每消费一条消息提交一次offset。　　在0.8.1中，已经实验性的加入这个功能，0.8.2中可以广泛使用。auto rebalancing的功能主要解决broker节点重启后，leader partition在broker节点上分布不均匀，比如会导致部分节点网卡流量过高，负载比其他节点高出很多。auto rebalancing主要配置如下， controlled.shutdown.enable ，是否在在关闭broker时主动迁移leader partition。基本思想是每次kafka接收到关闭broker进程请求时，主动把leader partition迁移到其存活节点上，即follow replica提升为新的leader partition。如果没有开启这个参数，集群等到replica会话超时，controller节点才会重现选择新的leader partition，这些leader partition在这段时间内也不可读写。如果集群非常大或者partition 很多，partition不可用的时间将会比较长。　　1）可以关闭unclean leader election，也就是不在ISR（IN-Sync Replica）列表中的replica，不会被提升为新的leader partition。unclean.leader.election=false时，kafka集群的持久化力大于可用性，如果ISR中没有其它的replica，会导致这个partition不能读写。　　2）设置min.isr（默认值1）和 producer使用ack=-1，提高数据写入的持久性。当producer设置了ack=-1，如果broker发现ISR中的replica个数小于min.isr的值，broker将会拒绝producer的写入请求。max.connections.per.ip限制每个客户端ip发起的连接数，避免broker节点文件句柄被耗光。

02

分布式基础概念-消息中间件[Kafka]

Consumer Group：消费者组，消费者组内每个消费者负责消费不同分区的数据，提高消费能力。逻辑上的一个订阅者。

01

kafka查看消费数据

在老版本中，使用kafka-run-class.sh 脚本进行查看。但是对于最新版本，kafka-run-class.sh 已经不能使用，必须使用另外一个脚本才行，它就是kafka-consumer-groups.sh

01

如何保证消息队列的高可用？

如果有人问到你 MQ 的知识，高可用是必问的。上一讲提到，MQ 会导致系统可用性降低。所以只要你用了 MQ，接下来问的一些要点肯定就是围绕着 MQ 的那些缺点怎么来解决了。

01

关于面试 | 问到消息队列高可用，这样子回答

如果有人问到你 MQ 的知识，高可用是必问的。上一讲天天在用消息队列，却不知为啥要用？提到，MQ 会导致系统可用性降低。所以只要你用了 MQ，接下来问的一些要点肯定就是围绕着 MQ 的那些缺点怎么来解决了。

03

最全Kafka 设计与原理详解【2017.9全新】

当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：

01

kafka系列--结构02

相等于一个巨型文件，被平均分配到多个大小相等segment(段)数据文件中。但每个段segment file 消息数量不一定相等，这种特性方便old segment file 快速删除。默认保留7天数据。

02

Kafka设计解析（六）- Kafka高性能架构之道

摘要上一篇文章《Kafka设计解析（五）- Kafka性能测试方法及Benchmark报告》从测试角度说明了Kafka的性能。本文从宏观架构层面和具体实现层面分析了Kafka如何实现高性能。宏观架构层面利用Partition实现并行处理 Partition提供并行处理的能力 Kafka是一个Pub-Sub的消息系统，无论是发布还是订阅，都须指定Topic。如《Kafka设计解析（一）- Kafka背景及架构介绍》一文所述，Topic只是一个逻辑的概念。每个Topic都包含一个或多个Partition

07

Kafka概念入门（一）

比如，有100条有序数据，生产者发送到kafka集群，kafka的分片有4个，可能的情况就是一个分片保存0-25，一个保存25-50......这样消息在kafka中存储是局部有序了。严格说，kafka是无法保证全局消息有序的，没有这个机制，只能局部有序。

03

Kafka分片存储、消息分发和持久化机制

Broker：消息中间件处理结点，一个 Kafka 节点就是一个 broker，多个 broker 可以组成一个 Kafka集群。 Topic：一类消息，例如 page view 日志、click 日志等都可以以 topic 的形式存在，Kafka 集群能够同时负责多个 topic 的分发。 Partition：topic 物理上的分组，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列。 Segment：partition 物理上由多个 segment 组成，下面有详细说明。 offset：每个 partition 都由一系列有序的、不可变的消息组成，这些消息被连续的追加到 partition中。partition 中的每个消息都有一个连续的序列号叫做 offset,用于 partition中唯一标识的这条消息。

01

史上最详细Kafka原理总结 | 建议收藏

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

04

Kafka设计解析（八）- Exactly Once语义与事务机制原理

写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制 Kafka事务机制的实现主要是为了支持 Exactly Once即正好一次语义操作的原子性有状态操作的可恢复性 Exactly Once 《Kafka背景及架构介绍》一文中有说明Kafka在0.11.0.0之前的版本中只支持At Least Once和At Most Once语义，尚不支持Exactly Once语义。但是在很多要求严格的场景下，如使用Kafka处理交易数据，Exactl

03

MQ学习笔记

其实这里要讲的就是使用MQ的好处，MQ的的使用场景有很多，但是比较核心的有3个：解耦、异步、削峰

01

卡夫卡入门

1.Kafka独特设计在什么地方？ 2.Kafka如何搭建及创建topic、发送消息、消费消息？ 3.如何书写Kafka程序？ 4.数据传输的事务定义有哪三种？ 5.Kafka判断一个节点是否活着有哪两个条件？ 6.producer是否直接将数据发送到broker的leader(主节点)？ 7.Kafa consumer是否可以消费指定分区消息？ 8.Kafka消息是采用Pull模式，还是Push模式？ 9.Procuder API有哪两种？ 10.Kafka存储在硬盘上的消息格式是什么？一、基本概念介绍 Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能，但具有自己独特的设计。这个独特的设计是什么样的呢？首先让我们看几个基本的消息系统术语： Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers. 将预订topics并消费消息的程序成为consumer. Kafka以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个broker. producers通过网络将消息发送到Kafka集群，集群向消费者提供消息，如下图所示： <ignore_js_op>

05

【年后跳槽必看篇-非广告】Kafka核心知识点-第二章

所谓的消息幂等性就是如何保证消息只消费一次不重复消费。这需要从Kafka的多个角度去回答该问题一是要包含Kafka自身的机制，还需要考虑客户端自己的重复处理。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭