如何清理Kafka KStream内部更改日志和重新分区主题

apache-kafka、apache-kafka-streams

我正在使用Kafka流，我注意到它使我的kafka日志记录了很多日志消息，例如： [2019-04-17 09:06:16,541] INFO [Log partition=my-application-KSTREAM-AGGREGATE-STATE-STORE-0000000076-repartition-0, dir=/opt/kafka/data/logs] Incrementing log start offset to 316423 (kafka.log.Log) [2019-04-17 09:06:16,545] INFO [Log partition=my-application

浏览 1提问于2019-04-17得票数 3

1回答

Kafka Kstream Json Join不能转换为java.lang.String

java、apache-kafka、apache-kafka-streams

我是第一次接触Kafka和Kstreams。我正在尝试连接两个流，并将输出推送到第三个流。我已经尝试了几天的各种实现，现在仍然坚持这个错误。错误，无法继续。有人能帮帮忙吗？ import org.apache.kafka.common.serialization.Serdes; import org.apache.kafka.streams.KafkaStreams; import org.apache.kafka.streams.StreamsBuilder; import org.apache.kafka.streams.StreamsConfig; import org.apache.k

浏览 0提问于2020-05-02得票数 2

1回答

如何在更新源主题分区计数时更新内部changelog主题分区？

apache-kafka、kafka-consumer-api、kafka-producer-api、apache-kafka-streams

我有一个应用程序，其中我使用了Kstream-Kstream连接和Ktream-Ktable连接。我已经将输入源主题分区计数从4更新为16，应用程序停止并返回以下错误。 Could not create internal topics: Existing internal topic application-test-processor-KSTREAM-JOINTHIS-0000000009-store-changelog has invalid partitions. Expected: 16 Actual: 4. Use 'kafka.tools.StreamsResetter&#

浏览 0提问于2018-04-18得票数 1

1回答

改变Kafka流内部主题的复制因子会影响更改主题名/重新分区主题名中的数字吗？

apache-kafka、apache-kafka-streams

因此，我们启动了一堆Kafka流应用程序，而没有意识到默认的复制因子是1。我们已经做了代码修改(例如 ) 但是，我认为这无助于已经部署的应用程序，也无助于更改已经创建的内部主题。例如，我使用kafkacat列出了一些主题(基于application.id前缀，并且都有一个副本)。显然，当代理开始出现问题(此处为broker.id 11或21 )时，应用程序无法正常工作。 topic "appid-KTABLE-SUPPRESS-STATE-STORE-0000000013-changelog" with 1 partitions: partition 0, l

浏览 0提问于2019-08-02得票数 4

1回答

从卡夫卡流看窥视主题

apache-kafka、apache-kafka-streams

我有一个主题名叫push-processing-KSTREAM-PEEK-0000000014-repartition，这是卡夫卡的内部话题。我没有创建这个主题，我在重新分区后使用.peek()方法，并使用peek方法3-4次。我的问题是，我可以阅读主题topic read push-processing-KSTREAM-PEEK-0000000014-repartition，但我不能阅读，当我说topic read push-processing-KSTREAM-PEEK-0000000014-repartition --from-beginning。创建这个内部主题是因为使用了peek

浏览 2提问于2019-11-22得票数 0

1回答

墓碑和钥匙店的清理

apache-kafka、kafka-consumer-api、apache-kafka-streams

我有一些用Java实现的Kafka用户，我正在实现一个独立的应用程序来检查记录和墓碑。希望卡夫卡将删除州商店，因为它压缩主题。现在..。我对卡夫卡创建的不同类型的商店感到有点困惑。对于每一种类型的商店，我想知道：卡夫卡删除相应主题中的旧记录时，是否删除了？当您在相应的主题中删除墓碑记录时，删除了吗？，我们是否坚持了？我看到的商店类型如下： KSTREAM-AGGREGATE-STATE-STORE changelogKSTREAM-AGGREGATE-STATE-STORE repartition(KTABLE)状态存储changelogKSTREAM-KEY-SELECT重新分区对于

浏览 4提问于2020-02-26得票数 2

1回答

apache-kafka、apache-kafka-streams

Kafka 1.1版我们使用Kafka KStream根据事件本身中选定的键来聚合事件。下面大致介绍了它的功能 KStream[String, Event] .selectKey[String]({ (_, event) => aggregationKey(event) } .groupByKey() .aggregate( () => { Event("", "") }, (k: Any, event: Event, aggregate: Event

浏览 30提问于2020-10-08得票数 0

1回答

KStreams正在尝试删除一个重分区主题。

apache-kafka、apache-kafka-streams

我们已经构建了一个从主题读取并在不同字段上执行groupBy的管道。 input .groupBy( (key, value) -> value.getFieldA(), Grouped.with("TopicName", Serdes.String(), Serdes.Integer())) .windowedBy(SessionWindows.with(ofMinutes(5)).grace(Duration.ZERO)) 此步骤创建一个中间app-TopicName-repartition主题。然而，KStream不断地向Kafka发送Delete请

浏览 5提问于2019-12-11得票数 2

回答已采纳

3回答

当主题有多个分区时，KTable-KTable外键联接不会生成所有消息。

java、spring-boot、apache-kafka、apache-kafka-streams、spring-cloud-stream

参见下面的更新以显示潜在的解决办法我们的应用程序使用两个主题作为KTables，执行一个左连接，并输出到一个主题。在测试期间，我们发现当我们的输出主题只有一个分区时，它可以正常工作。当我们增加分区的数量时，我们注意到生成到输出主题的消息的数量减少了。在启动应用程序之前，我们用多个分区配置测试了这个理论。使用一个分区，我们可以看到100%的消息。对于2，我们看到一些消息(少于50%)。只有10，我们几乎没有看到(不到10%)。因为我们要加入，所以从主题1中消耗的每一条消息都应该被写入输出主题，但是我们发现这种情况并没有发生。消息似乎被卡在从Ktable的外键连接创建的“中间”主题中，但是没

浏览 0提问于2020-07-13得票数 8

回答已采纳

1回答

在Kafka流处理中使用为变更量和重新分区而提供的主题

spring-boot、apache-kafka-streams、confluent-platform、stream-processing、event-stream-processing

我正在使用Kafka流处理来使用Springboot从源对象聚合数据。 @Bean public java.util.function.Consumer<KStream<String, SourceObject>> processSourceObject() { Serde<SourceObject> SourceObjectSerde = new JsonSerde<>(SourceObject.class); Serde<AgrregatedObject> AgrregatedObjectSerde = new J

浏览 7提问于2020-06-26得票数 0

2回答

如何理解Kafka流？

apache-kafka、apache-kafka-streams

我正在遵循Kafka streams文档，我对一些概念感到困惑，我想在这里澄清这些概念。 https://kafka.apache.org/23/documentation/streams/developer-guide/dsl-api.html 在阅读文档中提到的flatMap时，它采用一条记录并生成零条、一条或多条记录。您还可以修改记录键和值。它还标记要重新分区的数据。问题： 1)重新划分是什么意思，是为新的主题重新划分数据，还是重新划分同一主题中的数据，从哪里开始流式传输？ 2)如果旧的主题数据被重新划分，这是否意味着转换后的结果也将写入该主题？例如： KStream<Lon

浏览 12提问于2019-09-29得票数 0

1回答

进行并行化KafkaStream处理的更好方法？

java、apache-kafka、apache-kafka-streams

下面是我的代码片段。我想将kafka流处理并行化。但是我不想放到Runnable中，我也不想多次启动这个应用程序。有没有像streams.parallel()这样的方法？ final Serde<String> stringSerde = Serdes.String(); Consumed<String, String> types = Consumed.with(stringSerde, stringSerde); //create StreamFactory StreamsBuilder bu

浏览 0提问于2018-08-09得票数 1

1回答

flatMap后卡夫卡流的物化

java、apache-kafka、apache-kafka-streams、spring-kafka

我想消费两个卡夫卡主题的卡夫卡流支持的春天卡夫卡。主题有一个不同的键和值。我希望映射第二个主题的键和值，并通过方法：merge ( .merge(KStream<X,Y> otherStream) )将其与第一个主题进行映射。下面是一个示例： // Block 1 KStream<MyKey, MyValue> stream2 = streamsBuilder.stream( "second-topic", consumedAs(OtherKey.class, OtherValue.class, Allo

浏览 1提问于2020-04-20得票数 1

回答已采纳

1回答

镜像重新分区主题的大小不断增加。

apache-kafka、apache-kafka-streams、apache-kafka-mirrormaker、kafka-cluster

我们正在使用MirrorMaker备份主题。我们注意到，与源集群相比，由Kafka应用程序创建的重新分区主题在目标集群中的大小似乎在不断增加。根据org.apache.kafka.streams.kstream.KStream#repartition()的文档，这是有意义的 Similar to auto-repartitioning, the topic will be created with infinite retention time and data will be automatically purged by Kafka Streams. 换句话说，由于在目标集群中没有运行Ka

浏览 5提问于2021-03-12得票数 3

1回答

基于InvalidStateStoreException的KStream连接使用GlobalKtables

apache-kafka、bigdata、apache-kafka-streams、confluent-platform

我有一个KStream应用程序，在这个应用程序中，我加入了一个从"topic1“读取的topic1和从"topic2”读取的GlobalKTable，然后加入了从"topic3“读取的另一个GlobalKTable。当我试图同时将消息推送到所有三个主题时，我会得到以下例外- org.apache.kafka.streams.errors.InvalidStateStoreException 如果我在这些主题中逐个推送消息，即在topic2中推送消息，然后在topic3中推送消息，然后在topic1中推送消息，那么我就不会得到这个异常。在启动StateList

浏览 0提问于2019-05-06得票数 2

1回答

KafkaStreams:在KStream-KTable中处理反序列化异常

apache-kafka-streams

假设我们正在KStream和KTable之间进行内部连接，如下所示： StreamsBuilder sb = new StreamsBuilder(); JsonSerde<SensorMetaData> sensorMetaDataJsonSerde = new JsonSerde<>(SensorMetaData.class); KTable<String, String> kTable = sb.stream("sensorMetadata", Consum

浏览 2提问于2020-06-06得票数 0

回答已采纳

1回答

有多个主题分区的Kafka流无法重新均衡错误

apache-kafka、apache-kafka-streams

当源主题分区计数= 1时工作正常。如果我将分区增加到任何大于1的值，我会看到下面的错误。既适用于低级，也适用于DSL API。有什么建议吗？可能会遗漏什么？ org.apache.kafka.streams.errors.StreamsException: stream-thread [StreamThread-1] Failed to rebalance at org.apache.kafka.streams.processor.internals.StreamThread.runLoop(StreamThread.java:410) at org.apach

浏览 3提问于2017-02-19得票数 6

回答已采纳

1回答

为什么我要用Kafka流来配置一个州立商店？

apache-kafka、apache-kafka-streams、rocksdb

目前，我有以下设置： StoreBuilder storeBuilder = Stores.keyValueStoreBuilder( Stores.persistentKeyValueStore("kafka.topics.table"), new SomeKeySerde(), new SomeValueSerde()); streamsBuilder.addStateStore(storeBuilder); final KStream<byte[], SomeClass> requestsStream = streamsBuilde

浏览 4提问于2019-12-07得票数 2

回答已采纳

1回答

Kafka Streams:状态存储分区错误

apache-kafka、apache-kafka-streams

定义了一个自定义存储，在自定义Transformer中使用(参考如下)。 public class KafkaStream { public static void main(String[] args) { StateStoreSupplier houseStore = Stores.create("HOUSE").withKeys(Serdes.String()).withValues(houseSerde).persistent().build(); KStreamBuilder kstreamBuilder = new KSt

浏览 2提问于2018-05-15得票数 0

1回答

如何将__consumer_offsets清理面板从紧凑型中删除？

apache-kafka、delete-file

我有三个节点的kafka集群，在kafka日志目录中有__consumer_offsets-XX，许多日志文件作为100 as的日志文件用于磁盘位置超过90%，excutes命令： ./bin/kafka-configs.sh --zookeeper localhost:2181 --describe --entity-name __consumer_offsets --entity-type topics 关于主题的图：__consumer_offsets是： segment.bytes=104857600,cleanup.policy=compact,compression.type=pr

浏览 1提问于2017-01-02得票数 2

1回答

Kafka流:从应用程序的每个实例中的所有分区读取

java、apache-kafka、partitioning、apache-kafka-streams

当使用KTable时，当实例/使用者的数量等于分区数时，Kafka流不允许从特定主题的多个分区读取实例。我试着用GlobalKTable实现这一点，问题是数据将被覆盖，聚合也不能应用于它。假设我有一个名为"data_in“的主题，它有3个分区(P1、P2、P3)。当我运行一个Kafka流应用程序的3个实例(I1、I2、I3)时，我希望每个实例从"data_in“的所有分区读取数据。我的意思是，I1可以从P1、P2和P3中读取，I2可以从P1、P2和P3、I2和on中读取。编辑:请记住，生产者可以在"data_in“中将两个类似的ID发布到两个不同的分区中。因此，当运

浏览 0提问于2018-12-11得票数 1

回答已采纳

1回答

Apache在“合流云”中的应用--分区主题中的非相干偏移量和用户延迟

apache-kafka、apache-kafka-streams、spring-cloud-stream、confluent-platform、confluent-cloud

当我在合流云上使用Kafka时，我发现了一种奇怪的行为。我创建了一个具有默认分区值的主题: 6。我的系统包括一个向该主题发送消息的Java生成器应用程序和一个Kafka流应用程序，该应用程序从该应用程序中读取并执行每条消息的操作。 ----------------------- -------- ----------- | Kafka Java Producer | ----> | topic | ----> | KStream | ----------------------- --------

浏览 0提问于2019-07-19得票数 2

回答已采纳

1回答

如何使Serdes与多步kafka流一起工作

apache-kafka、apache-kafka-streams

我对Kafka很陌生，我正在构建一个使用Twitter作为数据源的初学者项目。我创建了一个生产者，它可以查询Twitter，并将数据发送给我的kafka主题，其中包含键和值的字符串序列化程序。我的Kafka应用程序读取这些数据并进行单词计数，但也按推特的日期分组。这个部分是通过一个名为KTable的wordCounts来完成的，以利用它的上插入功能。这个KTable的结构是：键：{word: exampleWord，date: exampleDate}，Value: numberOfOccurences 然后，我尝试将KTable流中的数据重构为平面结构，以便以后可以将其发送到数据库。您可以

浏览 4提问于2020-08-28得票数 0

回答已采纳

1回答

Kafka流任务分配

java、apache-kafka、apache-kafka-streams

我有一个由一个线程运行的Kafka-Streams应用程序，用一个分区处理一个主题很好。我需要运行这个应用程序的多个实例，同时处理不同的主题。在我的当前场景中，所有主题都只有一个分区。当我运行同一个应用程序的新实例(使用相同的APPLICATION_ID)，处理不同的主题时，流客户端不会在这个新应用程序中创建新任务。第一个实例继续处理任务0_0中的第一个主题，第二个实例在没有分配分区的情况下等待。我知道我只使用一个分区的主题，但在这种情况下，如果我有两个实例和两个具有一个分区的主题来处理两个分区，那么为什么不能在每个实例中同时处理两个单独分区的主题呢？我怀疑这与StreamsParti

浏览 2提问于2019-11-20得票数 4

回答已采纳

1回答

输出主题总是必须手动为kafka流创建吗？

apache-kafka、apache-kafka-streams

KStream<String, String> kstream = builder.stream("input-topic"); kstream.to("output-topic"); 已经创建了“输入-主题”。我没有创建“输出主题”，似乎"Kstream“和其他内部主题一起为我创建了一个主题。此外，在"to“函数的javadoc中看到了这一点，指定的主题应该在使用之前手动创建(即在Kafka流应用程序启动之前。所以我的问题是，我们总是必须手动创建“输出主题”吗？

浏览 0提问于2021-10-16得票数 0

回答已采纳

1回答

KStream在kafka 2.2中会自动创建主题吗？

apache-kafka-streams

KStream/TopicNameExtractor javadoc表明，当使用to(TopicNameExctractor extractor)时，主题不会自动创建，而必须已经存在。然而，我在2.2.0中看到了不同的情况。文档不是最新的吗？这可以在>= 2.2.0中依赖吗？这里提到的javadoc是：https://kafka.apache.org/22/javadoc/org/apache/kafka/streams/processor/TopicNameExtractor.html 我在这里查看了发行说明，没有看到任何相关的更改：https://www.apache.org/d

浏览 8提问于2019-04-24得票数 1

回答已采纳

1回答

如果键被更改，KStreams map()对输出主题分区的影响

apache-kafka、apache-kafka-streams

我是KStreams的新手，有一个关于在KStreams应用程序中重新分区的问题。我很难在在线文档中找到一个明确的答案，我想知道你们中是否有人可以提供一些启发。目标是以一种有效的方式在新的关键字上重新划分主题。在KStreams中，我们可以调用map()并更改键并将其写入输出主题。对于运行在不同JVM中的kstream应用程序实例，在同一消费者组中运行它们自己的消费者，从原始主题消费如何工作？例如，假设我有一个具有3个分区的输入主题，它提供了一个月+一年的病假详细信息的员工数据。这个输入主题的关键是假设is null。我们想要标记是否有任何员工在一个月内请了超过10天的病假。因此，

浏览 0提问于2021-02-09得票数 0

1回答

Apache (KStreams)：如何订阅多个主题？

java、apache-kafka、kafka-consumer-api、apache-kafka-streams

我有以下代码 //Kafka Config setup Properties props = ...; //setup List<String> topicList = Arrays.asList({"A", "B", "C"}); StreamBuilder builder = new StreamBuilder(); KStream<String, String> source = builder.stream(topicList); source .map((k,v) -> { //busy code f

浏览 1提问于2019-06-11得票数 3

回答已采纳

1回答

Kafka流:使用相同的`application.id`从多个主题中使用

apache-kafka、apache-kafka-streams

我有一个应用程序需要侦听多个不同的主题；每个主题都有处理消息的不同逻辑。我曾想过对每个KafkaStreams实例使用相同的kafka属性，但我得到了一个错误，如下所示。误差 java.lang.IllegalArgumentException: Assigned partition my-topic-1 for non-subscribed topic regex pattern; subscription pattern is my-other-topic 码 (kotlin) class KafkaSetup() { companion object { pri

浏览 6提问于2017-12-27得票数 15

回答已采纳

1回答

为什么kafka中的两个Kstream的共同分区需要两个流的分区数量相同？

apache-kafka、apache-kafka-streams

我想知道为什么kafka中的两个Kstream的共同分区要求两个流的分区数量与以下URL中的文档中给出的相同：

浏览 7提问于2017-08-07得票数 6

回答已采纳

1回答

从中间主题加入KStream和KTable会导致异常

apache-kafka、apache-kafka-streams

我正在尝试加入一个KStream和一个KTable。如果没有联接，我从中间主题"book-attribute-by-id“中阅读就没有问题。用于KTable的示例msg： {key: {id: 1} value: {id: 1, attribute_name: "weight"}} 用于KStream的示例msg： {key: {id: 1}, value: {id: 1, book_id: 1, attribute_id: 1, value: 200}} 希望输出到“最终聚合”主题： {key: {id: 1}, value: {book_id: 1, at

浏览 1提问于2019-02-06得票数 0

回答已采纳

1回答

使用Kafka绑定器在Spring cloud中打印JsonObject

spring-boot、java-8、apache-kafka-streams、spring-cloud-stream

我是Spring Cloud和kafka stream的新手。我正在尝试使用kafka活页夹设置spring cloud应用程序。我尝试在本地测试kafka流处理器，但无法打印任何日志。我的kafka消息将包含JSONObject。kafkaStreamListener类是： @Configuration public class KafkaStreamListener { private static Logger logger = LogManager.getLogger(KafkaStreamListener.class); //bean for proc

浏览 37提问于2021-07-27得票数 0

回答已采纳

1回答

卡夫卡流在关闭运营商和流客户端后抛出StreamExpection

apache-kafka、apache-kafka-streams

像这样的ErrorMessage： org.apache.kafka.streams.errors.StreamsException:现有的内部主题error-span-aggregate-stream-KTABLE-SUPPRESS-STATE-STORE-0000000004-changelog有无效的分区:预期: 16；实际: 20。在org.apache.kafka.streams.processor.internals.InternalTopicManager.validateTopics(InternalTopicManager.java:579) ~kafka-streams-3

浏览 14提问于2022-11-28得票数 0

1回答

卡夫卡流“地图侧”连接，如字典查找

apache-kafka、apache-kafka-streams

这个问题是的后续问题。我需要将小字典数据加入到主要的Kafka流中(就像“地图端”连接一样)。 AFAIK，Kafka实例总是在主题的给定分区上工作。如果我想进行查找，我需要为连接键重新划分这两个流，以便将相关记录放在一起。如果需要检查多个查找数据，多次重新分区的成本是多少？不可能将整个查找数据集发送到每个分区，因此当我从查找主题构建KTable时，我将在所有Kafka应用程序实例中看到整个数据集。因此，我可以在KStream#transform()方法中进行查找，这将使用本地RocksDB存储区和我拥有的所有查找数据。我想知道哪一种选择更合适：向主题的每个分区插入相同的数据(整个数

浏览 1提问于2016-09-21得票数 4

回答已采纳

1回答

Kafka内部数据管理

apache-kafka、kafka-consumer-api、apache-kafka-streams

有没有人能帮我理解一下下面的场景：来自Topic A的流有一些不同的操作，这些操作会导致生成多个内部kafka主题，例如: KSTREAM-REDUCE-0000000014 KSTREAM-JOIN-0000000358等。它们在拓扑中显示为"consumer-group-name-generated-name“ 主题A加入主题B ...B必须更新键值才能与A加入内部主题"group-Re-KeyB“。如果我的拓扑发生变化，那么除非所有这些内部主题的名称都相同，否则我需要更改我的使用者组名称，否则随机生成的KSTREAM-REDUCE-0000000014可能包含不同

浏览 8提问于2020-08-18得票数 0

1回答

Kafka流1.0为线程分配分区

apache-kafka、apache-kafka-streams

我使用的是Kafka流，具有无状态的简单处理器拓扑。我有一个有100个分区的主题，有两台各有50个线程的机器，并且运行相同的流应用程序，所以最终我将有一个1-1之间的映射。主题中的消息已经是键控消息。我有一个逻辑约束，即一旦一个线程连接到一个分区或更多的分区，它就应该继续处理这些分区(当然，直到重新启动时，它会重新洗牌)。我从日志中看到线程多次(重新)加入了使用者组。我的问题是，kafka-streaming是否保证线程能够处理最初挂在应用程序启动上的相同的分区，或者它不时地进行重新设置。我检查了文档，但没有找到任何细节上讨论这个问题的东西。下面是我使用的代码： StreamsB

浏览 0提问于2018-03-19得票数 1

回答已采纳

2回答

KStream-KStream内部连接抛出java.lang.ClassCastException

java、apache-kafka、apache-kafka-streams、spring-cloud-stream

在@StreamListener的过程方法中，我将学校KStream映射到person KStream，并通过.through()方法来填充一个主题"person“，然后在@StreamListener的另一个process1方法中生成一个KStream。 MianApplication.java @SpringBootApplication public class KafkaStreamsTableJoin { public static void main(String[] args) { SpringApplication.run(KafkaStrea

浏览 0提问于2019-06-11得票数 4

回答已采纳

2回答

除了分区之外，有没有办法进一步并行化kstream？

apache-kafka、apache-kafka-streams

我知道使用kafka并行化的基本方法是利用分区。然而，我有一个特殊的情况，因为我必须利用一个只有6个分区的现有基础设施，并且我需要每秒处理数百万条记录。有没有一种方法可以进一步优化，让每个kstream使用者同时从单个分区读取并均匀分配负载？

浏览 0提问于2017-12-09得票数 2

1回答

如何使用KStreams将卡夫卡主题的数据写入文件？

java、apache-kafka、kafka-consumer-api、apache-kafka-streams

我正在尝试使用Java在Eclipse中创建KStream应用程序。现在，我指的是互联网上可供KStreams使用的单词计数程序，并对其进行修改。我想要的是，我从输入主题中读取的数据应该写入文件，而不是写入另一个输出主题。但是，当我试图将KStream/KTable打印到本地文件时，我将在输出文件中获得以下条目： org.apache.kafka.streams.kstream.internals.KStreamImpl@4c203ea1 如何实现将输出从KStream重定向到文件？以下是代码： package KStreamDemo.kafkatest; package org.ap

浏览 1提问于2019-03-08得票数 1

回答已采纳

1回答

与状态存储相关的Kstream成本与KTable成本

apache-kafka、apache-kafka-streams、ksqldb

我正在尝试更好地理解如何设置集群来运行我的Kafka-Stream应用程序。我正在尝试对将要涉及的数据量有更好的认识。在这方面，虽然我可以很快看出KTable需要状态存储，但我想知道从主题创建Kstream是否意味着将该主题的所有日志复制到状态存储中，显然是以一种仅附加的方式。也就是说，尤其是当我们想要公开流以进行查询时？当数据在源主题中移动时，Kafka会自动复制状态存储中的数据吗？如上所述，由于Ktable的更新，这听起来很明显，但对于Kstream，我只想确认发生了什么。

浏览 17提问于2019-07-09得票数 1

回答已采纳

1回答

在Apache中使用log.retention.bytes参数记录主题数据的混乱

apache-kafka

"log.retention.bytes“是我们用来保留主题消息日志的参数，我给出的值为1073741824。我参考了卡夫卡文档，它说"log.retention.bytes“中给出的大小是每个分区，所以这意味着假设我使用的所有主题都有20个分区，那么根据文档，卡夫卡将保留的字节的总大小是20*1073741824。但我需要的是清晰 Will Kafka retain 20*1073741824 bytes for all the topics? (or) Will Kafka retain 20*1073741824 bytes

浏览 1提问于2019-03-27得票数 0

1回答

关于卡夫卡紧凑主题的缺失信息

apache-kafka

我有一个被压缩的主题： /opt/kafka/bin/kafka-topics.sh --zookeeper localhost --describe --topic myTopic Topic:myTopic PartitionCount:1 ReplicationFactor:1 Configs:cleanup.policy=compact 它上没有任何信息： /opt/kafka/bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic myTopic --from-beginning --p

浏览 0提问于2019-05-02得票数 0

回答已采纳

1回答

在Kafka流中处理错误时重新处理消息

java、apache-kafka、apache-kafka-streams、spring-kafka

我有一个简单的基于Kafka流的Spring应用程序，它使用来自传入主题的消息，进行map转换并打印这条消息。配置如下的KStream @Bean public KStream<?, ?> processingPipeline(StreamsBuilder builder, MyTransformer myTransformer, PrintAction printAction, String topicName) { KStream<String, JsonNode> source = builder.stream(topicName,

浏览 1提问于2019-05-28得票数 0

回答已采纳

1回答

卡夫卡流API:我加入了两个KStreams的empmodel

apache-kafka-streams、kafka-join

final KStream<String, EmpModel> empModelStream = getMapOperator(empoutStream); final KStream<String, EmpModel> empModelinput = getMapOperator(inputStream); // empModelinput.print(); // empModelStream.print(); empModelStream.join(empModelinput, new ValueJoiner<EmpModel, EmpModel, O

浏览 1提问于2017-02-27得票数 2

1回答

Kafka Streams接口: KStream to KTable

apache-kafka-streams

我有一个Kafka主题，我在其中发送定位事件(key=user_id，value=user_location)。我能够将其作为KStream读取和处理 KStreamBuilder builder = new KStreamBuilder(); KStream<String, Location> locations = builder .stream("location_topic") .map((k, v) -> { // some processing here, omitted form clar

浏览 0提问于2017-03-22得票数 38

回答已采纳

1回答

卡夫卡流-缺少源主题

spring、apache-kafka、apache-kafka-streams

我正在使用Kafka拓扑结构，有时在更改applicationId和/或clientId属性之后，我会收到一个特定的kafka流上的错误："Missing source topic stream.webshop.products.prices.5 durign assignment. Returning error INCOMPLETE_SOURCE_TOPIC_METADATA“。我已经在每个Kafka节点的create.topic=true中设置了server.properties属性，但是似乎没有创建这个流的主题。以下是我的Kafka流拓扑： package ro.or

浏览 0提问于2019-09-05得票数 5

回答已采纳

2回答

Kafka table(Ktable)中有没有根据值取回key的函数？或者有没有办法同时基于键和值来检索数据？

apache-kafka、apache-kafka-streams

我正在做一个关于Kafka流和ktables的poc，我想知道是否有任何方法可以在kafka中存储数据(键-值对或键-对象对)，可以通过流、ktables、状态存储，这样我就可以根据键和值检索数据库。我创建了一个基于主题的kstream，在这个kstream上我推送了一些消息，并使用wordcountalgo在kstream上面创建的ktable中填充值。如下所示： StoreBuilder customerStateStore = Stores.keyValueStoreBuilder(Stores.persistentKeyValueStore("customer-store

浏览 0提问于2019-07-24得票数 2

1回答

是否支持具有相同接收器和源主题的Kafka流？

java、apache-kafka、apache-kafka-streams

我有一个复杂的Kafka应用程序，其中两个流在同一个流中完全有状态：它使用Execution主题作为源，增强消息并将其重新发布回相同的Execution主题。it加入另一个主题WorkerTaskResult，将结果添加到Execution并发布回Execution主题. 主要目标是提供一个工作流系统。去尾逻辑是： the an 是一个 Execution列表，查看所有TaskRun的所有当前状态，找到下一个要执行(如果有)的列表，执行更改其TaskRunsList并添加下一个TaskRunsList并发布回卡夫卡，另外，它向另一个队列发送要执行的任务，(WorkerTask)the Wo

浏览 5提问于2020-04-20得票数 1

回答已采纳

1回答

将KStream物化成一个全球共享的商店？

apache-kafka、kafka-consumer-api、apache-kafka-streams、spring-kafka、spring-cloud-stream-binder-kafka

我正在Java应用程序()中使用Kafka。我有一个特定的用例，如下所示： My应用程序将从主题A中消费，并为主题A上的每一条消息生成和消费主题B的，该应用程序用于跟踪内部状态更改。它使用主题B使用KStream将此状态具体化为可查询存储。由于应用程序的多个实例将运行，并且不能保证将两个主题的哪个特定分区分配给实例，因此必须在应用程序之间共享状态存储。否则，如果对主题B进行再平衡，则应用程序实例可能会丢失它们对主题A上的消息进行跟踪的状态信息。请考虑以下场景：主题1的分区1，主题B的分区1，主题B的分区1，occurs.Instance 1现在有主题A的分区1，但有主题B的分区2。实例1现

浏览 5提问于2020-02-20得票数 0

1回答

使用相同键报告卡夫卡流应用程序中groupBy()和groupByKey()的不同记录计数

apache-kafka、group-by、apache-kafka-streams、windowing

当我们使用自定义的groupByKey()值时，我们正在体验流处理中的“丢失数据包”。我们有一个单处理器节点，其中有一个源主题，从中读取数据包，对该组进行分组和聚合，并根据需要访问statestore的计算进行输出。让我更详细地解释这个问题，以及到目前为止，我们是如何理解这个问题的：概述我们正在设置一个卡夫卡流应用程序，在其中我们必须执行窗口操作。我们根据一个特定的键对设备进行分组。下面是我们为GroupBy使用的示例列： +---------+---------+------+ | Field Name | Field Value | +---------+---------+-----

浏览 2提问于2020-09-10得票数 0