如何在Kafka中查看主题创建和修改时间戳

apache-kafka

我想使用卡夫卡MirrorMaker镜像所有事件从卡夫卡集群版本0.8到另一个卡夫卡集群版本1.0，这两个集群应该保持生产。问题是，旧的Kafka (版本0.8)存储的消息没有时间戳字段(时间戳是消息的一部分)。我正在寻找一种方式，以便Kafka MirrorMaker可以生成带有时间戳的消息，这些消息将从消息中提取出来(事件时间而不是处理时间)。有没有人知道如何用卡夫卡镜像机或其他工具来做这件事？

浏览 8提问于2018-01-13得票数 1

回答已采纳

1回答

星火卡夫卡流-发送原始时间戳而不是当前时间戳

apache-spark、apache-kafka

我正在使用火花结构化流发送记录到一个卡夫卡主题。kafka主题是用config - message.timestamp.type=CreateTime创建的。这样做是为了使目标卡夫卡主题记录具有与原始记录相同的时间戳。我的卡夫卡流媒体代码： kafkaRecords.selectExpr("CAST(key AS STRING)", "CAST(value AS BINARY)","CAST(timestamp AS TIMESTAMP)") .write .format("kafka") .optio

浏览 0提问于2018-11-09得票数 0

1回答

获取消息到达Kafka的时间

apache-kafka、kafka-consumer-api

Kafka的消息元中的时间戳表示Kafka生产者发送消息的时间，但我的目标是提取消息到达Kafka集群的时间。有什么方法可以解压出来吗？

浏览 115提问于2019-04-02得票数 3

回答已采纳

1回答

Kafka的消息是否默认包含时间戳？

apache-kafka

Kafka的消息是否默认包含时间戳？或者如果需要，需要在正文消息中手动添加时间戳？

浏览 15提问于2020-05-18得票数 0

回答已采纳

3回答

如何计算一天从卡夫卡主题中获取的信息数量？

apache-spark、apache-kafka、parquet、spark-structured-streaming、delta-lake

我从Kafka主题中获取数据，并以Deltalake(拼花)格式存储它们。我希望找到在特定的日子中获取的消息的数量。 My thought ：我想使用spark读取存储数据的目录，并在特定的一天使用".parquet“的文件进行计数。这会返回一个计数，但我不确定这是否正确。这条路对吗？是否还有其他方法来计算某一天(或某段时间)从卡夫卡主题中获取的信息数量？

浏览 0提问于2019-07-16得票数 4

2回答

Kafka和时间戳在单个主题分区内的摄取时间排序

apache-kafka、timestamp

当独占地从Kafka主题中的单个分区读取消息时，其中时间戳被配置为摄取(代理)时间，我是否可以假设从该分区检索的所有消息都将始终按照严格的时间戳顺序？

浏览 0提问于2019-01-21得票数 1

1回答

卡夫卡镜片制造工具出错[kafka版本0.10]

apache-kafka

我试图使用镜像工具将数据从一个主集群复制到备份，但我得到了以下错误。 nykpsr000001726$ bin/kafka-mirror-maker.sh --consumer.config config/mirror-consumer.properties --producer.config config/mirror- producer.properties --whitelist my-replicated-topic [2017-02-03 06:17:00,193] FATAL [mirrormaker-thread-0] Mirror maker thread failu

浏览 9提问于2017-02-03得票数 0

回答已采纳

1回答

在特定时间间隔(1分钟)内检索发布到kafka主题的消息总数。

apache-kafka

我想使用kafka命令，获取在一段时间(理想情况下为1分钟)内发布到kafka主题的消息总数。这样的命令存在吗？最好是以一种高效的方式获得计数，而不必获取消息的内容，然后对其进行计数。我想卡夫卡--控制台--消费者. Im可以帮上忙

浏览 2提问于2022-06-29得票数 1

1回答

通过SCALA (非命令行)控制Apache-Kafka和Flink

scala、apache-kafka、apache-flink、flink-streaming

在SCALA代码中使用Kafka/FLink命令行-“命令” 当前，当我向Flink提交作业时，它通过命令行。与创建和删除卡夫卡主题相同。是否有一个Scala来控制命令行接口命令的执行.因此，根据应用程序中的条件，我可以向flink提交一个作业，并从代码中创建/删除kafka。我想在Scala代码中使用的命令 Starting Flink Server bin/start-local.sh Stopping Flink Server bin/stop-local.sh Submitting Job Flink bin/flink run -c pathToMai

浏览 7提问于2017-10-09得票数 0

回答已采纳

2回答

apache-kafka

或者至少其中之一？当我使用kafka-topics.sh --list或--describe时，我没有得到它，也许我错过了冗长的选项，尽管我在主题配置的属性列表中根本看不到它们。这不是卡夫卡的明智信息吗？

浏览 151提问于2019-02-15得票数 3

回答已采纳

1回答

在Kafka-Net中生成的消息中没有时间戳

c#、apache-kafka、kafka-producer-api

我正在使用Kafka-Net nuget软件包为卡夫卡的生产和消费做一个基本的POC。然而，我遇到的问题是，它发布给主题的消息似乎没有任何时间戳(在Kafka工具最新版本中查看)。这是因为Kafka-Net软件包还没有更新以支持在新版本的Kafka中处理时间戳的方式吗？我需要转换到使用融合卡夫卡吗？消息以正确的偏移量和有效负载附加到主题中，它们只有一个空白的时间戳。这是我的密码 using System; using System.Collections.Generic; using System.Configuration; using KafkaNet; using KafkaNet

浏览 1提问于2019-03-06得票数 1

1回答

如何更改记录的时间戳？

java、apache-kafka-streams

我使用FluentD (最后一个稳定版本)向Kafka发送消息。但是FluentD使用的是旧的KafkaProducer，因此记录时间戳总是设置为-1。因此，当信息到达卡夫卡时，我必须使用WallclockTimestampExtractor将记录的时间戳设置为时间点。有没有卡夫卡流特有的解决方案？我真正感兴趣的时间戳是在消息中流畅地发送的： “时间戳”：“1507885936”，“主机”：“V.X.Y.Z” 在kafka中的记录表示：偏移量= 0，timestamp= - 1，key = null，值={“时间戳”：“1507885936”，“主机”：“V.X.Y.Z”}

浏览 2提问于2017-10-12得票数 6

回答已采纳

3回答

如何将kafka时间戳值作为火花结构化流中的列？

scala、apache-spark、apache-kafka、spark-structured-streaming、spark-streaming-kafka

我正在寻找将kafka的时间戳值添加到我的Spark结构化流模式的解决方案。我从卡夫卡中提取了价值字段，并制作了数据格式。我的问题是，我需要得到时间戳字段(从卡夫卡)和其他专栏。以下是我的当前代码： val kafkaDatademostr = spark .readStream .format("kafka") .option("kafka.bootstrap.servers","zzzz.xxx.xxx.xxx.com:9002") .option("subscribe","csvstream

浏览 1提问于2019-01-21得票数 1

回答已采纳

2回答

删除主题- Apache kafka中的消息

apache-kafka

我正在测试卡夫卡的工作-主题，但我不知道如何删除工作。我创建了一个简单的主题 retention.ms = 60000 和 segment.ms = 60000 和 cleanup.policy=delete. 在此之后，我创建了一个制片人，并发送了一些信息。消费者毫无问题地接收消息。但我希望，在一分钟后，如果一个重复的消费者，它不会显示的消息，因为他们一定被删除了。但这种行为并没有发生。如果我在ksql中创建一个查询，这是相同的。信息总是会出现。我想我不明白删除是怎么回事。示例： 1)专题 ./kafka-topics --create --zookeeper localhost:2

浏览 5提问于2019-10-19得票数 1

回答已采纳

2回答

如何使用Java从Kafka获取最近5天的消息

java、apache-kafka、kafka-consumer-api

我在Kafka中设置了一个主题的时间间隔为7天，我正在从Kafka获取数据并将其存储在数据库中，但从过去5天我的数据库服务器宕机了，现在我必须从Kafka获取最近5天的消息并将其存储在数据库中。注:从过去5天开始，Kafka没有问题。

浏览 0提问于2017-09-05得票数 1

1回答

Kafka流:窗口时对旧数据的再处理

apache-kafka、apache-kafka-streams

有一个Kafka流应用程序，它通过流连接执行窗口(使用原始事件时间，而不是挂钟时间)，例如1天。如果打开这个拓扑，并从一开始就重新处理数据(就像在lambda风格的体系结构中那样)，那么这个窗口会将旧数据保存在那里吗？例如:如果今天是2022-01-09，而我正在接收2021-03-01的数据，这个旧数据会进入表吗，还是会从一开始就被拒绝？在这种情况下-可以采取什么策略来重新处理这些数据？使用Kafka Streams 2.5.0进行更新

浏览 6提问于2022-01-09得票数 0

2回答

KSQL -确定何时加载表

apache-kafka、ksqldb

如何确定何时KSQL将数据从Kafka主题完全加载到我的表中？目标：取2个卡夫卡主题，加入他们并将结果写成一个新的卡夫卡主题。示例：我正在使用Ksql的Rest发出以下命令。 CREATE TABLE MyTable (A1 VARCHAR, A2 VARCHAR) WITH (kafka_topic='topicA', key='A1', value_format='json'); CREATE STREAM MyStream (B1 varchar, B2 varchar) WITH (kafka_topic='topicB&#

浏览 1提问于2018-11-14得票数 4

回答已采纳

2回答

如何合并多个kafka流，以便对结果流的所有事件进行会话窗口化

apache-kafka、apache-kafka-streams、confluent-platform

我们有多个不同业务事件的输入主题(页面查看、单击、滚动事件等)。就我所理解的Kafka流而言，它们都会得到一个事件时间戳，它可以用于KStream与其他流或表的连接以对齐时间。我们要做的是:将所有不同事件(源自上述不同主题)合并为用户id (即按用户id分组)，并对它们应用会话窗口。这应该可以通过在包含所有事件的流上使用groupByKey，然后使用aggregate/reduce (在这里指定不活动时间)。这个组合流必须按照事件时间的顺序从不同的输入主题中获得所有事件(或者以上述kafka方法遵守此事件时间的方式)。剩下的唯一挑战是创建这个合并/合并的流。当我查看Kafka时，有一个

浏览 5提问于2017-07-13得票数 2

回答已采纳

1回答

在我的Kafka队列中获取最新消息时间戳

python、apache-kafka、kafka-python

我有Kafka 0.10.0，如果我理解正确的话，它会给所有的信息添加时间戳。为了监视目的，我想提取给定主题的最新消息的时间戳。在我看过的任何Python库中，我都没有看到它的API字段。

浏览 0提问于2018-12-19得票数 2

回答已采纳

1回答

将Ktable按键分组后无效(负)时间戳

apache-kafka、apache-kafka-streams

我正在使用KakfkaStreams (2.3.0)来使用流和Ktable (压缩主题)之间的连接来丰富价值。问题是压缩后的主题被写入到使用流主题的不同分区器中，因此联接无法按预期工作(一些键不匹配，因为它们位于不同的分区中)。代理版本为0.10.2。我开始研究如何重新划分压缩的主题，方法是使用一个groupBy()，后面跟着一个()，但是当它开始读取创建的重新分区主题时，它开始抛出一个带有消息的：输入记录ConsumerRecord(主题=映射-表-重新分区，分区= 18，leaderEpoch =空，偏移量= 0，CreateTime = -1，序列化键大小= 37，序列化值大小=

浏览 1提问于2019-08-28得票数 0

回答已采纳

1回答

是否可以用卡夫卡连接来“插入”卡夫卡的信息？

jdbc、apache-kafka、upsert、apache-kafka-connect、confluent-platform

我使用的是合流3.3.0。我使用jdbc-source-connector将消息插入到我的Oracle表中的Kafka中。这个很好用。我想检查一下是否可以“重新插入”。我的意思是，如果我有一个学生表，有3列id(数字)、name(varchar2)和last_modified(时间戳)。每当我插入新行时，它都会被推送到Kafka (使用timestamp+auto增量字段)。但是当我更新行时，应该更新Kafka中相应的消息。我桌子的id应该成为相应的卡夫卡信息的key。我的主键(id)将保持不变作为引用。每次更新行时，时间戳字段都会被更新。这个是可能的吗？或者删除卡夫卡中的现有记录并

浏览 1提问于2018-08-01得票数 0

1回答

Apache Kafka流:无序消息

apache-kafka、timestamp、extractor

我有一个ApacheKafka2.6的制作人，它写到主题-A (TA)。我也有一个Kafka流应用程序，它使用TA和写到主题-B (TB)。在streams应用程序中，我有一个自定义时间戳提取器，它从消息有效负载中提取时间戳。对于我的一个失败处理测试用例，我在应用程序运行时关闭了Kafka集群。当生产者应用程序试图向TA写入消息时，它不能这样做，因为集群已经关闭，因此(我假设)缓冲消息。假设它收到4条消息-- m1、m2、m3、m4 --按时间顺序递增。(即m1是第一位的，m4是最后的)。当我把Kafka集群带回到网上时，制片人会向主题发送缓冲消息，但它们不太合适。例如，我收到了m2，然

浏览 3提问于2021-04-19得票数 1

回答已采纳

2回答

KStreamBuilder无法将数据从一个主题流到另一个主题

apache-kafka、kafka-consumer-api、apache-kafka-streams

我试图使用KStreamBuilder将数据从一个主题移动到另一个主题。我尝试了以下代码，但有例外 import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.kafka.common.serialization.Serdes; import org.apache.kafka.streams.kstream.KStreamBuilder; import org.apache.kafka.streams.KafkaStreams; import org.apache.kafka.streams.Stream

浏览 1提问于2016-07-26得票数 1

2回答

获取特定物品的生产和消费时间戳的选项？

apache-kafka

假设我正在调试一个问题，该问题涉及生成和使用的单个特定消息。我想知道这条消息是什么时候产生的，什么时候被消费的。获取此信息的选项有哪些？我想当我构造一条消息时，我可以在其中包含当前时间。当我的消费者收到一条消息时，它可以写出一个日志条目。但是假设我有许多生产者和消费者类，但没有一个代码做这些事情。在kafka中是否已经存在一些东西，可以支持在不接触这些生产者和消费者的实现的情况下找到关于特定消息的信息，比如__consumer_offsets主题？

浏览 1提问于2020-03-12得票数 0

2回答

Kafka流:如何存档具有特定ttl的数据？

apache-kafka-streams、rocksdb

Kafka流提供了不同的持久存储，其中之一是RocksDBWindowStore。因此，如果我们设置保留时间，它将删除键值对，如果保留时间是交叉的。在删除此数据之前，是否提供了任何回调功能？Usecase-我想将数据归档到分布式数据库中，然后再从rocksdb中删除)。

浏览 5提问于2017-12-28得票数 1

回答已采纳

1回答

按时间戳排列的两个不同kafka主题的火花聚合事件

scala、apache-spark、apache-kafka

假设有以下两个主题的kafka系统：已创建已删除它们被用来为创建和删除项目做广告。 kafka中事件的结构是JSON，这两个主题的结构相同： { "id" : "a1cf621a-2a96-4b70-9dd6-3c54a2819eef" "timestamp": "2022-01-05T07:31:04.913000" } 现在，如何使用spark (scala)来积累已删除的和创建的金额，这样我们就可以通过时间戳获得许多当前项目。假设卡夫卡发生了下列事件主题：创建了 {"id":

浏览 6提问于2022-06-23得票数 0

回答已采纳

1回答

在pyflink中访问kafka时间戳

apache-kafka、apache-flink、flink-streaming、pyflink

我正在尝试编写一个Pyflink应用程序来测量延迟和吞吐量。我的数据是来自kafka主题的json对象，并使用SimpleStringSchema-class加载到DataStream中进行反序列化。在这篇文章的答案()之后，我让Kafka的制作人在事件中添加了时间戳，但我现在很难理解我如何才能访问这些时间戳。我知道前面提到的这篇文章提供了一个解决这个问题的方法，但我很难把这个例子移植到python上，因为它的文档/例子很少。另一篇文章()建议我应该定义一个ProcessFunction。然而，在这里我也不确定语法。我可能不得不做这样的事情(摘自：) class MyProcessFunct

浏览 5提问于2021-04-22得票数 0

2回答

如何在kafka接收器连接器中添加带有kafka消息时间戳的列

apache-kafka、google-bigquery、apache-kafka-connect

我正在使用properties/json文件配置连接器，在从源连接器读取消息时，我尝试添加一个时间戳列，其中包含kafka时间戳，但没有成功。我尝试过添加transforms，但是它总是null，我的接收器连接器“大查询”返回了一个错误更新表架构失败我把这些配置放在bigquery连接器属性中 transforms=InsertField transforms.InsertField.timestamp.field=fieldtime transforms.InsertField.type=org.apache.kafka.connect.transforms.InsertFie

浏览 0提问于2018-11-15得票数 1

回答已采纳

1回答

使用窗口连接的Kafka流数据的初始加载

apache-kafka、apache-kafka-streams、apache-kafka-connect

我在两个流之间使用了窗口连接，假设是7天的窗口。在初始加载时，数据库中的所有记录(通过kafka连接源连接器)都将加载到流中。因此，似乎所有记录都会在前7天的窗口状态存储中结束，因为生产者/摄取的时间戳都是当前时间，而不是可能在消息值中的字段(如create_time)。有没有一种推荐的方法来平衡初始负载和连接窗口？

浏览 1提问于2019-11-28得票数 0

1回答

KafkaStream.KTable如何用(压缩) KV格式将数据写入卡夫卡主题

java、apache-kafka、apache-kafka-streams

在Kafka(0.11.0.1)流中，一个演示应用程序 // Serializers/deserializers (serde) for String and Long types final Serde<String> stringSerde = Serdes.String(); final Serde<Long> longSerde = Serdes.Long(); // Construct a `KStream` from the input topic "streams-plaintext-input", where message value

浏览 3提问于2017-09-21得票数 0

1回答

kafka如何同步不同代理之间的数据时间戳以及在kafka中如何创建时间戳？

apache-kafka、distributed-system

Apache如何管理集群中不同代理之间的同步时间戳，哪个时间实际上被记录并转换为消息创建时间戳，Kafka如何验证它的时间精度

浏览 3提问于2021-11-17得票数 0

回答已采纳

2回答

使用MirrorMaker设置Kafka HA -如何在Flink中处理？

apache-kafka、apache-flink、flink-streaming、apache-kafka-mirrormaker

我们正在为Kafka设置MirrorMaker 2.0。如果我没理解错的话，在复制集群中，主题偏移量是不相等的。这对于普通的Kafka应用程序来说不是问题，因为消费者群体也会被复制。Flink在状态内部存储Kafka偏移量-我认为在使用状态重新启动作业后，事情可能会出错。有没有办法设置Flink，以便我们可以在复制的Kafka集群上从集群故障中恢复？我认为我们应该以某种方式迁移状态，但没有这样做的经验。

浏览 0提问于2020-03-24得票数 3

1回答

卡夫卡ProducerRecord中时间戳的目的是什么？

apache-kafka、kafka-producer-api

我们可以为kafka ProducerRecord构造函数指定时间戳。 public ProducerRecord(String topic, Integer partition, Long timestamp, K key, V value, Iterable<Header> headers) 这个时间放大器的目的是什么？它和卡夫卡经纪人的信息一起传递吗？

浏览 2提问于2021-08-31得票数 0

回答已采纳

1回答

kafka工具的奇怪行为: kafka.tools.GetOffsetShell

apache-kafka、kafka-consumer-api

我想使用时间戳获取偏移量，然后尝试使用kafka.tools.GetOffsetShell命令工具。文档是：我认为这个命令在我们指定的时间戳之前返回最新的N个偏移量。但我试了几个命令都搞糊涂了。 kafka-run-class.sh kafka.tools.GetOffsetShell \ --broker-list ka1:9092 \ --time -1 \ --topic test_topic \ --offsets 100 \ --partitions 61 它返回： test_topic:61:6269917760,6257457002 然后： kafka-r

浏览 0提问于2015-05-04得票数 2

1回答

Kafka Connect:主题显示3倍于预期的事件数

apache-kafka、apache-kafka-connect

我们正在使用Kafka在数据库之间同步表(Debezium对此是完美的，但这是不可能的)。 Sync在一般情况下运行良好，但是在主题中存储的事件/消息的数量似乎是预期的3倍。这是什么原因？一些附加信息目标数据库包含消息的确切数量(主题/3中的消息计数)。大部分主题被分成3个分区(键通过SMT设置，使用DefaultPartitioner )。 JDBC源连接器 { "name": "oracle_source", "config": { "connector.class": "io.confluen

浏览 1提问于2019-12-16得票数 0

1回答

有没有比对分搜索更快的方法来在排序的Kafka主题中找到具有特定属性的记录？

apache-kafka、kafka-consumer-api

我有一个将订阅Kafka主题的客户端，其中起始偏移量是在订阅时确定的。根据记录的值对象中的时间戳值对主题进行排序。客户端可以指定开始消费的时间戳，我目前使用的是二进制搜索，使用Kafka Consumer的seek()和poll()方法来查找正确的偏移量。在我看来，这似乎很奇怪，我想知道，有没有更合适的方法来做这件事？

浏览 0提问于2018-08-06得票数 0

2回答

Kafka -如何将过期消息移动到不同的topic？

apache-kafka、event-driven、kafka-topic

要求是有一个Kafka主题接受消息。但是消息必须在一定的时间内被消费和确认。如果不是，另一个进程将获取该消息并启动一个不同的进程(例如中止或回滚进程)。一种方法是在经过一段时间后将消息移动到不同的主题。并且不同的消费者可以监听它并开始中止过程。在Kafka中这是怎么可能的？或者有不同的方法可以解决这个问题？

浏览 46提问于2021-04-08得票数 0

1回答

kafka分区有很多日志段。

apache-kafka

一个主题有20个分区，几乎每个人都有2万多个日志段文件，其中大多数是几个月前创建的。即使在我将retention.ms配置为非常短之后，也不会删除这些段。而其他主题可以正常循环。我想知道里面有什么问题，以及如何解决它。因为我担心总段的数量会不断增加，比OS vm.max_map_count还大，这会损害kafka进程本身。下面的图像是对异常主题的描述。

浏览 0提问于2018-09-20得票数 1

2回答

Clickhouse更改实例化视图的select

clickhouse

我有以下设置： CREATE TABLE IF NOT EXISTS request_income_buffer ( timestamp UInt64, timestamp_micro Float32, traceId Int64, host String, type String, service String, message String, caller String, context String ) ENGINE = Kafka('kafka:9092', 'request_income&

浏览 72提问于2018-05-31得票数 4

回答已采纳

1回答

Kafka流创建时间与日志附加时间

apache-kafka、apache-kafka-streams

如果Kafka配置了Log-Append Time，那么代理是否会覆盖消息时间戳，而不管生产者/流设置了什么时间戳？从中，我得到的印象是，CreateTime有点不可靠--有时只转发时间戳(例如，在使用context.forward()时)，有时被覆盖(例如，在使用puntuate()时)。因此，我想知道在设置消息时间戳(即覆盖流设置的时间戳)时，Log-Append Time是否优先？

浏览 4提问于2022-11-02得票数 1

回答已采纳

1回答

合并来自多个kafka的数据到单个kafka

apache-kafka、cassandra

我有N个Kafka主题，有数据和时间戳，我需要将它们组合在一个具有排序时间戳顺序的主题中，其中数据在分区内排序。我有一种方法可以做到。将Cassandra中的所有Kafka主题数据(因为其快速写入)与聚类顺序降序组合在一起，它会将它们全部组合在一起，但限制是如果在数据累积的时间窗口之后，如果数据来得晚，则不会对其进行排序有没有其他合适的方法来做到这一点？如果没有，那么我的解决方案是否有任何改进的机会。谢谢

浏览 1提问于2020-04-20得票数 0

1回答

卡夫卡时间戳顺序是否与偏移量相对应？

apache-kafka、timestamp、offset

我们使用kafka作为消息队列，我们的业务要求消息时间戳必须具有与偏移量相同的顺序，这意味着:如果存在消息m1和消息m2，和(m1.time戳)

浏览 2提问于2019-03-20得票数 6

回答已采纳

1回答

将哪个时间值分配给kafka记录message.timestamp (kafka-python库)？

apache-kafka、kafka-python

在kafka-python库的正式文档中，对于已消耗的记录.timestamp属性分配的值实际上没有任何信息。

浏览 4提问于2022-07-08得票数 0

1回答

Kafka Streams处理集群超时

apache-kafka、architecture、apache-kafka-streams

在运行在多个实例中的基于Kafka的分布式JVM应用程序中，我需要对特定Kafka主题中的特定消息在特定可配置时间内(此超时值由业务逻辑驱动，可能会发生变化)的事件采取操作。我如何才能以集群安全的方式实现这一点？

浏览 0提问于2020-09-29得票数 2

1回答

基于Kafka的分布式调度器

apache-spark、apache-kafka、quartz-scheduler、apache-kafka-streams、distributed

我们有一个使用案例，在Kafka中，我们每天都会收到数百万个事件。每个事件将如下所示： {"id"：123，"state"：“启动/在途/停止”，"ts":"01-02-2021 12:00:00"} 所以对于每个id，我们可以有多个事件。我们需要生成警报，以防在例如xx天之后，在这些事件流中没有接收到特定id的任何一个状态。id 123的例子，如果我们在5天后没有收到运输中的事件。一种方法是将所有内容存储在数据湖中，并在其上连续运行spark作业。我的问题是:我们能否在xx天后为每个is安排作业，并使用Kafka授权它，使

浏览 15提问于2021-03-01得票数 0

2回答

JDBC汇流连接器模式

jdbc、apache-kafka、apache-kafka-connect、confluent-platform

我正在使用JDBC kafka源连接器中的自定义查询，任何人都可以告诉我在JDBC kafka源连接器中使用自定义查询时的模式是什么，如果我使用批量模式，那么它将重新插入kafka主题中的所有数据。注意：-表中没有主键或时间戳列。

浏览 0提问于2019-05-29得票数 1

回答已采纳

1回答

如何在kafka中执行批量主题删除

kafka

我们有3个节点Kafka集群，复制因子为3，默认日志保持时间为4天。我们已经启用了自动主题创建，它将为每个任务创建主题。一旦任务完成，我们就不需要为其创建主题。现在，在Kafka中有2000个未使用的主题，我们可以在不关闭集群的情况下大量删除这个2000主题吗？大容量主题删除是否会影响群集的性能？如果是，那么在不关闭集群的情况下删除不需要的主题的安全方法是什么？

浏览 0提问于2018-05-28得票数 1

1回答

波束/云数据流:如何将Kafka (或PubSub)主题添加到运行流中

streaming、apache-kafka、google-cloud-dataflow、apache-beam

(如何)可以将主题动态添加或删除到作为源或宿(Kafka或PubSub)的运行管道中？或者使用动态模式作为接收器，就像使用BigQuery表名称一样。一些背景知识:我们有不同的主题，每个客户一个主题，以更好地促进下游聚合，并在运行中清理/添加它们。Kafka用于能够在比PubSub更长的时间内回填计算。我现在脑海中的选择要么是扩展KafkaIO来支持这一点，要么是在每次添加了删除的主题时更新管道(这意味着在更新时流中会有一些滞后)。也许我的头脑中有一个错误的设计模式，有其他的解决方案。

浏览 6提问于2017-06-23得票数 2

回答已采纳

6回答

如何在使用Spark Streaming对kafka进行流媒体时进行去重？

apache-spark、duplicates、apache-kafka、spark-streaming

我有一个案例，Kafka生产者一天发送两次数据。这些生产者从数据库/文件中读取所有数据并发送给Kafka。所以这些信息是每天发送的，是重复的。我需要对消息进行重复数据删除，并使用Spark流在一些持久存储中写入。在这种情况下，删除重复消息的最佳方法是什么？发送的重复消息是带有时间戳字段的json字符串，仅更新。注意：我不能改变Kafka Producer只发送新的数据/消息，它已经安装在客户机上并由其他人编写。

浏览 65提问于2018-02-12得票数 2

1回答

定制卡夫卡连接- ElasticSearch Sink连接器

elasticsearch、apache-kafka、apache-kafka-connect

我有卡夫卡主题与多种类型的信息流动和写作弹性搜索使用卡夫卡连接。流看起来很好，直到，我必须将唯一的一组消息分成唯一的索引。也就是说，我必须根据字段(是JSON消息)获得新数据集的新索引。如何配置/自定义Kafka连接来为我做同样的事情？每条消息都包含一个代表消息类型和时间戳的文件。 Json的示例如下: Sample1：{"log":{"data":"information", "version":"1.1"}, "type":"xyz", "timestamp":

浏览 0提问于2019-09-04得票数 3

回答已采纳