如何捕获不符合kafka流加入条件的kafka记录？_如何将消息发布到基于条件的2个kafka主题-- spring云流_如何在kafka流中处理给定时间范围内的key对应的最新记录？ - 腾讯云开发者社区

jdbc、apache-kafka、apache-kafka-connect

作为POC的一部分，我有一个任务，它基本上读取MySQL表的所有内容，并将记录转储到一个Kafka主题中。该表仅包含2条记录&我的batch.max.rows值为2。当任务以"bulk“模式运行时，我在kafka主题中看到了2条单独的JSON记录。如何配置连接器以插入包含这2条记录的JSON数组的1条JSON记录。最终没有。向卡夫卡主题发布的信息为1而不是2。

浏览 0提问于2021-01-06得票数 1

回答已采纳

1回答

使用kafka streams、KStream-GlobalKtable连接进行数据丰富

apache-kafka、apache-kafka-streams

我有一个场景，我通过读取Kafka主题中的数据来创建一个kafka KStream。KStream记录是key=null，value= {a json object}，例如 null: { "ID":"1", "name":"XDFER"} null: { "ID":"1", "name":"TRAFD"} 真实姓名在GlobalKTable中存储为： XDFER : "john" TRAFD : "albert" 我想要执行数据扩充

浏览 19提问于2019-03-11得票数 0

回答已采纳

2回答

星火结构流-将静态数据集与流数据集连接起来

scala、apache-spark、apache-spark-sql、apache-spark-dataset、spark-structured-streaming

我使用Spark structured streaming处理从Kafka读取的记录。以下是我想要达到的目标： (a)每条记录都是Tuple2类型的(Timestamp, DeviceId)。 (b)我已经创建了一个静态的Dataset[DeviceId]，它包含了期望在Kafka流中看到的所有有效设备in (类型为DeviceId)的集合。 (c)我需要编写一个Spark structured streaming查询 (i) Groups records by their timestamp into 5-minute windows (ii) For each window, get

浏览 2提问于2017-10-02得票数 15

1回答

根据巨大的元素列表过滤Kafka流

collections、java-8、kafka-consumer-api、apache-kafka-streams

我有一个非常具体的要求，在我消费一个卡夫卡主题的记录。从本主题读取的记录包含客户的单个银行交易。很明显里面有银行账号。此外，我在Oracle中有一个数据库表，其中包含客户的账号。这个表有大约50k条记录，这些记录是为特定服务预订的帐户。我的要求是，我想有一个从Kafka主题流的记录，以便它应该只给我从该主题的账号匹配上表中的50k账号的记录。注意:我使用Java 8来实现这一点。希望我已经为我试图解释的场景提供了足够的信息。

浏览 1提问于2018-11-09得票数 0

1回答

与复制的晶体报告相比，SSRS / SSMS记录检索非常缓慢

sql-server、reporting-services、crystal-reports

我在SSRS中复制了一份最初在水晶报告中的报告。报告有一个向下钻取，返回15,000条记录。在SSMS中，检索大约需要4分钟。在Crystal Reports中，报表将在大约5秒内显示。钻下点击是即时的。我正在努力弄清楚如何使SSMS返回得更快。Crystal和我的SSMS查询都针对同一个视图。该视图是一系列用于收集记录的UNION ALL，由系统供应商编写。 SSRS报告也需要大约4分钟。细节记录被隐藏起来直到切换。我不明白为什么水晶报告要快得多。是否有一种优化高行计数记录检索的方法？

浏览 0提问于2016-10-01得票数 0

1回答

卡夫卡流能与外部系统互动吗？

apache-kafka、apache-kafka-streams、apache-kafka-connect

我想使用Kafka流，但也与外部数据库和API交互。我读到过有人建议使用Kafka Connect这样做，但我想知道怎么做和为什么。即使没有Kafka流，也可以查询数据库(即使它没有Kafka连接连接器)和每个记录的API吗？或者我应该为这个用例使用另一个处理引擎？

浏览 3提问于2022-01-15得票数 0

2回答

如何将由于“数据库错误”导致的Informatica拒绝行加载到关系表

sql-server、error-handling、informatica、informatica-powercenter、azure-sql-managed-instance

在运行映射时，我会得到两个数据库错误和作业失败1)。(算术溢出错误2.)从字符串转换日期和/或时间时，转换失败。这纯粹是数据问题(数据类型错误和数据长度问题)，我想拒绝这些记录并将其写入一个单独的错误表中。写入这些记录的.bad文件由看起来像垃圾('，N，N‘和'，D’和',0')的字符组成，我不确定这些字符是根据什么得到的。，我们得到这个值是空值吗？如何克服这一问题并获得准确的输出？是否可以将这些被拒绝的记录直接写入关系表(与目标表的结构相同的错误表)或实现这一目标的方法？

浏览 1提问于2019-11-13得票数 0

1回答

忽略在条件拆分中不需要条件的任何内容

ssis、ssis-2012

我的记录可以满足三个条件中的一个，并继续流程。对于那些不满足这些条件的记录，我想忽略它们，可以这么说，丢弃它们。现在，它们正在下降到我的错误输出，而我不希望这样做。这些是员工记录，我正在检查某些条件，如果不需要执行任何操作，则忽略这些记录。一段时间后，我可能会有数千条不需要处理的记录，即使它们不是错误，最终也会出现错误输出。如何指定最后一个“存储桶”？如果没有其他匹配的对象执行此操作，或者实际上什么都不做...

浏览 1提问于2018-09-15得票数 0

1回答

Kafka Stream-GlobalKTable在特定字段上的连接

java、apache-kafka、apache-kafka-streams

所以我有一个KStream，它被反序列化为POJO，如下所示 public class FinancialMessage { public String user_id; public String stock_symbol; public String exchange_id; } 下面是Global Ktable记录的样子 public class CompanySectors { public String company_id; public String company_name; public String tckr; public String sector_cd; }

浏览 9提问于2020-08-03得票数 0

回答已采纳

1回答

卡夫卡流是否适合触发记录的批处理？

java、apache-kafka、microservices、batch-processing、apache-kafka-streams

上下文我已经设置了三个服务，每个服务都生成一个特定的JSON有效负载(，需要不同的时间来完成)，这是处理一个消息所必需的，该消息是将所有三个JSON有效负载组合到一个单一有效负载中的结果。这个最终的有效载荷将被发送到另一个Kafka主题，这样它就可以被另一个服务所消耗。下面你可以找到一个图表，它能更好地解释手头的问题。信息聚合器服务接收到聚合信息的请求，它将该请求发送到Kafka主题，以便服务1、服务2和服务3使用该请求并将它们的数据(JSON有效负载)发送到3个不同的Kafka主题。信息聚合器必须使用来自三个服务的消息(它们在非常不同的时间发送到各自的Kafka主题，例如服务

浏览 3提问于2021-12-20得票数 2

回答已采纳

2回答

如何将数据从蜂箱导出到卡夫卡

apache-spark、hive、apache-kafka

我需要将数据从Hive导出到Kafka主题，基于另一个Kafka主题中的一些事件。我知道我可以用HQL从火星之工中读取蜂巢的数据，并将它从星火中写入卡夫卡，但是有更好的方法吗？

浏览 0提问于2019-01-15得票数 0

回答已采纳

1回答

千分表计时器异常处理

apache-kafka、micrometer

我想要处理被记录的方法中抛出的异常。例如，我用方法kafka.send()向kafka发送消息，我将其记录下来：timer.record(() -> kafka.send()) Kafka可能会产生一些异常，如果它发生了，我想做一些事务并回滚一些代码。如何处理kafka.send方法中引发的异常？正如我在timer.record代码中所看到的，它会吞噬异常，对吗？

浏览 8提问于2022-05-03得票数 1

回答已采纳

1回答

分布式官方Mongodb源连接器多任务不工作

mongodb、apache-kafka、apache-kafka-connect、changestream、mongodb-kafka-connector

我正在我的Windows机器上运行Apache，带有两个Kafka -Connect-Worker(端口8083,8084)和一个有三个分区的主题(复制一个分区)。我的问题是，每当我关闭其他Kafka-Connect工作人员时，我都能看到它们的故障转移，但是负载平衡并没有发生，因为任务的数量总是一个。我正在使用官方的作为tasks.max=6的源(tasks.max=6)，我尝试用多个线程更新MongoDB，这样它就可以将更多的数据推入Kafka，并可能使Kafka创建更多的任务。即使在数据量较大的情况下，任务计数仍然是一个。我是如何确认只有一个任务在运行？这是通过api "“实现的

浏览 2提问于2020-07-06得票数 4

回答已采纳

1回答

为什么日志记录不适用于Akka Stream

scala、logging、akka、akka-stream、alpakka

我使用的是Alpakka，下面是我的玩具示例： val system = ActorSystem("system") implicit val materializer: ActorMaterializer = ActorMaterializer.create(system) implicit val adapter: LoggingAdapter = Logging(system, "customLogger") implicit val ec: ExecutionContextExecutor = system.dispatcher val log =

浏览 16提问于2019-05-03得票数 0

回答已采纳

1回答

在DataStream Flink中读取JDBC源数据的问题

java、jdbc、apache-kafka、apache-flink、flink-streaming

我正在启动一个新的Flink应用程序，以允许我的公司执行大量的报告。我们有一个现有的遗留系统，所需的大部分数据都保存在Server数据库中。在开始使用新部署的Kafka流的更多数据之前，我们首先需要使用这些数据库中的数据。我花了很多时间阅读Flink书籍和网页，但我有一些简单的问题和假设，我希望你能帮助我，这样我才能进步。首先，我想使用DataStream API，这样我们既可以使用历史数据，也可以使用实时数据。我不认为我想使用DataSet API，但我也不认为使用/Table有什么意义，因为我更喜欢用Java编写函数。我需要维护自己的状态，看来DataStream键控函数是可行的。现

浏览 1提问于2021-08-10得票数 2

回答已采纳

2回答

KSQL -确定何时加载表

apache-kafka、ksqldb

如何确定何时KSQL将数据从Kafka主题完全加载到我的表中？目标：取2个卡夫卡主题，加入他们并将结果写成一个新的卡夫卡主题。示例：我正在使用Ksql的Rest发出以下命令。 CREATE TABLE MyTable (A1 VARCHAR, A2 VARCHAR) WITH (kafka_topic='topicA', key='A1', value_format='json'); CREATE STREAM MyStream (B1 varchar, B2 varchar) WITH (kafka_topic='topicB&#

浏览 1提问于2018-11-14得票数 4

回答已采纳

3回答

数据库中的KAFKA初始负载

apache-kafka、apache-kafka-connect

我开始玩卡夫卡，当我从数据库导入数据时，我脑子里有很多问题。我的场景是:我有一个有几个表的关系数据库，我想将它们导入到KAFKA主题中。我头脑中的困惑是:如果我使用卡夫卡连接导入所有这些表，我的消费者将如何知道数据何时加载了所有的？在我的消费者开始工作之前，我需要将来自不同表的大部分记录加载到kafka主题中。例如，我的数据库中有一个客户和一个订购表。我想将这两个表导入到客户和订单主题中。如果我的消费者因为有一个新的订单而启动，但是关于客户的信息还没有出现在“客户”主题中，那么它将无法工作。我让事情复杂化了吗？

浏览 4提问于2020-02-11得票数 1

回答已采纳

1回答

Snowflake streams对它们可以处理的数据量是否有任何限制

snowflake-cloud-data-platform

我正在考虑使用streams和tasks将数据从Kafka Snowflake连接器创建的CDC表( JSON格式)转换和传输到完全结构化的Snowflake表。我想知道流可以处理的数据量是否有任何限制。我说的是每天处理数百万条记录。是否有人已经在大数据上测试了流？提前谢谢。

浏览 19提问于2021-04-27得票数 0

1回答

创建KSQL流时的密钥

apache-kafka、ksqldb、confluent-platform

1)是需要执行聚合函数的Stream上的Key。我读了几篇博客，还有来自Confluent的建议，即聚合功能工作所需的密钥 CREATE STREAM Employee (EmpId BIGINT, EmpName VARCHAR, DeptId BIGINT, SAL BIGINT) WITH (KAFKA_TOPIC='EmpTopic', VALUE_FORMAT='JSON'); 在定义上面的Stream时，我没有定义任何键(ROWKEY为空)。基础主题'EmpTopic‘也不是键。我正在对Stream执

浏览 3提问于2019-06-23得票数 0

1回答

如果我们通过Apache建立RDBMS复制，FKs(外键)会出现问题吗？

apache-kafka、rdbms、kafka-consumer-api、kafka-producer-api

我想知道Apache是否可以用于具有关系数据库(一个源和多个通过kafka复制的实例)的容错环境。我是卡夫卡的新手，互联网上的很多消息人士说，使用Kafka Connect可以很容易地做到这一点，但是有几个方面的问题我从来没有找到任何解释：如何保证在复制过程中不会违反外键?我在上看到连接器将数据更改发送到数据库中每个表的单独的kafka主题，但是如何按照创建它们的顺序读取它们，以便在复制过程中不违反FK？即使我们把所有的更改都放在一个主题中，这个主题也可能是分区的，那么我们将如何按照相同的顺序阅读它们呢？这是否意味着我们只能对单个分区使用单个主题？或者我们应该删除目标数据库中的所有F

浏览 0提问于2018-12-12得票数 2

1回答

KStream-KTable LeftJoin，当KTable未完全加载时发生连接

apache-kafka、apache-kafka-streams

我试图使用KStream来用主题B丰富主题A中的项目。主题A是我的KStream，主题B是我的KTtable，有大约2300万条记录。这两个主题的密钥都不是设定好的，所以我必须使用还原剂将KStream(主题B)转换为KTable。这是我的代码： KTable<String, String> ktable = streamsBuilder .stream("TopicB", Consumed.withTimestampExtractor(new customTimestampsExtractor())) .filter((key, value)

浏览 3提问于2020-04-27得票数 0

1回答

Pyspark使用kafka读取现有记录

apache-spark、pyspark、apache-kafka、spark-streaming

我已经将我的Postgres DB连接到Kafka，以读取表中的新记录，并将它们推送到elasticsearch。数据库已经有一些记录，当我将kafka连接到数据库时，这些记录在kafka主题中可见(使用./kafka-console-consumer.sh --topic postgres.public.table --bootstrap-server kafka:9092 --from-beginning)。但是使用下面的代码片段，我只能读取表中的新记录。 if __name__ == "__main__": if es.indices.exists(

浏览 71提问于2021-10-07得票数 0

1回答

更新Dataframe的日期，并与Kafka流数据实时连接

scala、apache-spark、apache-kafka、apache-flink、spark-streaming

我有一个Kafka流源和一个映射表，我想加入它，然后将数据写入另一个Kafka主题。这项工作每周7天24小时不停地进行。我的问题是，我希望加入的Map表是按日期划分的，每天我都需要新更新的Map表。但是，当代码运行时，它继续使用相同的旧映射表，日复一日地不进行更新。 import java.text.SimpleDateFormat object joiningDF{ def newDate: String = { val dFormat = new SimpleDateFormat("yyyy-MM-dd") dateFormat.format(System.curr

浏览 3提问于2022-09-08得票数 1

1回答

当生产者停下来用Java/Spring发送消息时，我是如何在windowedBy+aggregate中接收最后一条加窗的卡夫卡消息的？

java、spring、apache-kafka、kafka-consumer-api、apache-kafka-streams

正如我在标题中所说的，当生产者停止发送修补程序时，我想接收最后一条windowedBy消息。目前我正在手工操作，但首先，我要做一点描述。我有一个卡夫卡制作者，它是从一个文件读取行(每一行是一个不同的jSon)，每一行是发送给卡夫卡与500毫秒的时间间隔。我只有120行(或jSons)。我有一个消费者，它消耗了生产者发送的所有jSons。守则： final KStream<String, Aggregate> transactions = builder.stream(kafkaProperties.getTopic(), Consumed.with(Serdes.Strin

浏览 1提问于2020-08-27得票数 2

1回答

是否可以用卡夫卡连接来“插入”卡夫卡的信息？

jdbc、apache-kafka、upsert、apache-kafka-connect、confluent-platform

我使用的是合流3.3.0。我使用jdbc-source-connector将消息插入到我的Oracle表中的Kafka中。这个很好用。我想检查一下是否可以“重新插入”。我的意思是，如果我有一个学生表，有3列id(数字)、name(varchar2)和last_modified(时间戳)。每当我插入新行时，它都会被推送到Kafka (使用timestamp+auto增量字段)。但是当我更新行时，应该更新Kafka中相应的消息。我桌子的id应该成为相应的卡夫卡信息的key。我的主键(id)将保持不变作为引用。每次更新行时，时间戳字段都会被更新。这个是可能的吗？或者删除卡夫卡中的现有记录并

浏览 1提问于2018-08-01得票数 0

1回答

吡火花:如何使用KafkaUtils执行结构化流

pyspark、apache-kafka、spark-streaming、spark-kafka-integration

我正在使用SparkSession.readStream进行结构化流处理，并将其写入蜂窝表，但它似乎不允许我使用基于时间的微批，也就是说，我需要一批5秒的时间。所有的消息都应该形成一个5秒的批处理，并且批处理数据应该被写入到hive表中。现在，当他们被发布到Kafka主题时，它会读取这些信息，每条信息都是表的一条记录。工作代码 def hive_write_batch_data(data, batchId): data.write.format("parquet").mode("append").saveAsTable("test.my_ta

浏览 12提问于2022-04-25得票数 0

回答已采纳

2回答

Kafka流并发？

apache-kafka、apache-kafka-streams

我有一些基本的Kafka流代码，可以从一个主题读取记录，进行一些处理，并将记录输出到另一个主题。 Kafka streaming是如何处理并发的？所有的东西都在一个线程中运行吗？我在文档中没有看到这一点。如果它是单线程的，我希望选择多线程处理来处理大量数据。如果它是多线程的，我需要了解它是如何工作的，以及如何处理资源，比如SQL数据库连接应该在不同的处理线程中共享。相对于其他选项(Spark、Akka、Samza、Storm等)，Kafka内置的流媒体API是否不推荐用于大流量场景？

浏览 1提问于2016-10-12得票数 27

回答已采纳

1回答

以Kafka和MongoDB为源的ETL

python-3.x、mongodb、apache-kafka、aws-lambda、etl

我只是在学习Apache Kafka。我当前的ETL在batch process上运行，现在我希望它在流进程上运行，以便用于报告的数据始终是最新的。据我所知，我可以使用MongoDB连接器来捕获mongodb中的数据变化，然后将其发送到kafka主题。但在我的ETL中，我需要将处理后的数据存储到SQL数据库中。如何以及在哪里处理从mongodb发送到主题的数据，然后从该主题创建到另一个数据库的记录？我是否可以使用AWS lambda函数来执行处理和记录创建？但是，我如何在kafka中调用这个函数呢？

浏览 4提问于2020-06-17得票数 0

1回答

当前正在记录的SQL筛选器跟踪

sql-server、profiler

作为标题，如果我忘记在运行之前设置过滤器。是否有一种方法可以过滤记录中间的应用程序名称之类的列？我知道如果我将结果保存到跟踪文件并在分析器中重新打开该文件，我将能够编辑属性来过滤结果。但是对我来说，让一个功能过滤我们在录制过程中的内容是有意义的，所以我假设这个功能只存在--我不知道它在哪里，以及如何实现它？

浏览 0提问于2021-10-05得票数 0

1回答

Kafka Spark Streaming:如何在Spark Streaming创建的多个表上运行spark SQL查询？

java、scala、apache-spark、apache-kafka-streams

我正在流式传输多个Kafka主题，并从中创建表格。当有新数据进入流中时，如何在这些表上运行spark SQL查询？ public class SparkApp { public static void main(String[] args) throws InterruptedException { SparkSession spark = SparkSession .builder() .appName("Spark3App") .config("

浏览 0提问于2021-05-19得票数 0

1回答

什么是流处理和卡夫卡流的外行术语？

apache-kafka、apache-kafka-streams、stream-processing

要理解什么是kafka-streams，我应该知道什么是stream-processing。当我开始在网上阅读它们的时候，我无法理解一个整体的画面，因为它是一棵连接到新概念的永无止境的树。谁能用一个简单的现实世界的例子来解释stream-processing是什么呢？以及如何将其与kafka-streams与生产者消费者体系结构联系起来？谢谢。

浏览 1提问于2021-02-05得票数 2

回答已采纳

2回答

卡夫卡流:一张唱片到多张唱片

apache-kafka、kafka-consumer-api、kafka-producer-api、apache-kafka-streams

给定:我在Kafka中有两个主题--假设主题A和主题B。-- Kafka从主题A读取一个记录，处理它并生成多个记录(比如recordA和recordB)，这些记录对应于消耗的记录。现在，问题是我如何使用卡夫卡流来实现这个目标。 KStream<String, List<Message>> producerStreams[] = recordStream.mapValues(new ValueMapper<Message, List<Message>>() { @Override public List<Mes

浏览 3提问于2017-05-30得票数 6

回答已采纳

1回答

给定时间段的批处理消费者不能在Stream(StreamListener)中处理多个分区？

apache-kafka、batch-processing、spring-cloud-stream

@StreamListener(value = PersonStream.INPUT) private void personBulkReceiver(List<Person> person) { //.... } spring: cloud: stream: kafka: binders: bulkKafka: type: kafka environment: spring: cloud:

浏览 5提问于2020-11-16得票数 1

回答已采纳

3回答

如何刷新火花流中加载的数据内容？

apache-spark、apache-spark-sql、spark-structured-streaming

使用Smark-SQL2.4.1和kafka进行实时流。我有下面的用例需要从hdfs加载元数据，以连接kafka的流数据。流式数据记录的特定列应该在元数据数据特定列(Col)中查找。如果发现没有找到元数据列(Col)数据，则将流记录/列数据插入到元数据数据中，即插入hdfs中。也就是说，如果流数据再次包含相同的数据，则应该查找它。由于元数据加载在火花作业的开始，如何在流作业中再次刷新其内容以查找并与另一个流数据连接？

浏览 0提问于2019-08-16得票数 1

回答已采纳

1回答

用于同步数据库表的Apache /Streams API

java-8、apache-kafka-streams、apache-kafka-connect

我正在阅读Connect API上的Kafka文档，并试图将其与我的问题域联系起来。我有多个数据库，其中有公共表，我需要在任何更新/插入/删除时同步这些表。一个例子是： 1)有人在order_history中更新表“DB1”--我希望将更新传递给DB2/DB3等。 2)有人将记录插入到"purchase_order“中--我希望将插入传递给DB2/DB3等，以便在那些DB2/DB3等中进行相同的插入。 3)表将出现在所有DBs中，因此不存在缺少的表问题。这些只能在一组特定的表上完成，而不是整个数据库。我从Connect API文档中了解到，我需要提供以下内容： 1)源连接器将数据从S

浏览 2提问于2017-09-11得票数 0

1回答

有没有一个Telegraf插件可以接受从Influxdb读取数据的查询，然后使用kafka输出插件将它们发布到Kafka主题上？

apache-kafka、influxdb、telegraf、telegraf-plugins

使用Telegraf插件，有一种方法可以从InfluxDb读取数据并将其发布到Kafka主题。但有没有一种方法可以按需读取数据并将其放在Kafka主题上？就像基于查询的需求。我可以通过REST API (curl GET)执行基于查询的读取。有HTTP侦听器插件，但这些插件仅用于POST方法。GET方法没有，我可以从InfluxDb查询数据的子集，并将它们放在Kafka主题上。在这种情况下，kafka将是输出插件。

浏览 28提问于2019-06-14得票数 1

2回答

如何检测处于僵尸状态的Kafka流应用程序

java、apache-kafka、apache-kafka-streams、confluent-platform

我们的卡夫卡流应用程序的StreamThread使用者在生成以下日志消息后进入了僵尸状态：由于用户轮询超时，clientId=notification-processor-db9aa8a3-6c3b-453b-b8c8-106bf2fa257d-StreamThread-1-consumer，用户 =notification成员notification-processor-db9aa8a3-6c3b-453b-b8c8-106bf2fa257d-StreamThread-1-consumer-b2b9eac3-c374-43e2-bbc3-d9ee514a3c16向协调器发送LeaveGro

浏览 6提问于2020-04-16得票数 3

1回答

卡夫卡流相依对象之间的排序

apache-kafka、apache-kafka-streams

我正在读取来自表示依赖实体的RestfulAPI的数据。例如，我从/students获得学生对象，从/teachers获得教师对象。学生被连接到教师对象(学生有教师Id)。问题是，我从/students到Kafka制作了学生话题，从/teachers到教师主题，但是当我试图用Kafka流连接他们之间时，有时学生事件发生在教师事件到来之前，因此我没有收到学生和教师的联合记录(由于早期到达的学生)。使用窗口并不是最理想的，因为我想让学生随时更新。我的问题是-如何同步事件，以便能够解决取决于对象。目前，我正在手动轮询API服务，并将结果生成给Kafka --有什么方法可以用Kafka代替

浏览 0提问于2018-03-14得票数 1

1回答

加入Redis streams

redis、stream

我对Redis streams非常感兴趣。(看起来有可能构建由append-log驱动的小型系统，如Kafka，但没有Kafka的所有开销。) 它看起来很简单，可以通过XADD访问日志/流，并使用日志/流中的条目。但是如果你想跨两个流加入呢？ Kafka Streams、Flink、Spark等提供了这样做的方法。在Redis宇宙中有没有等价物？如果不是，我想我只需要实现我自己的东西，从两个流中消费，从消息中执行自己的连接逻辑，并发布回一个新的流。如果其他人有使用Redis Streams进行此操作的经验，请分享您的提示或警告。

浏览 12提问于2019-03-23得票数 6

2回答

kafka流中的不均匀分区分配

apache-kafka、streaming、apache-kafka-streams

我正经历着卡夫卡流的奇怪的任务行为。我有三个节点的卡夫卡流集群。我的流非常简单，有一个源主题(24个分区，所有kafka代理都运行在kafka流节点以外的其他机器上)，我们的流图只接收消息，按键对它们进行分组，执行一些筛选，并存储所有用于接收主题的内容。每个节点上都有两个卡夫卡线程。然而，每当我做滚动更新我的kafka流(通过关闭总是只有一个应用程序，以便其他两个节点正在运行)，我的kafka流以每个“节点”(通常为16-9-0)的不均匀分区数结束。只有在重新启动node01之后，有时node02集群才会恢复到更均匀的状态。，有人能建议我如何在额外重新启动之前实现更平等的分配吗？

浏览 3提问于2021-10-09得票数 1

1回答

如何用debezium捕获mysql中的数据，在kafka连接中改变数据捕获和使用jdbc接收器？

apache-kafka、apache-kafka-connect、change-data-capture、debezium

我在用debezium捕获mysql中的数据时遇到了问题，将数据捕获并使用kafka连接jdbc接收器将其消费到另一个mysql。因为debezium对kafka主题产生的模式和有效负载与kafka连接jdbc接收器所期望的模式不兼容。当jdbc接收器想要使用数据并在另一个mysql中创建记录时，我就会异常。我该如何解决这个问题？

浏览 2提问于2017-05-14得票数 1

回答已采纳

1回答

Flink SQL CSV连续流

flink-streaming、flink-sql

我正在创建2个flink sql表，1个用于CSV文件系统，另一个用于kafka。其目标是持续监视文件系统文件夹，并将新的csv文件记录推送到kafka主题。但是我在下面写的查询，推送csv文件记录一次，flink作业进入“完成”模式，任何新的文件都不会被处理。请有人告诉我如何创建flink sql连续流与源和csv文件系统和目标为Kafka。创建源表的Flink SQL CREATE TABLE son_hsb_source_filesystem_csv_bulk( file_name STRING, start_time STRING, oss_cell_id B

浏览 1提问于2021-03-24得票数 0

回答已采纳

1回答

如何在Kafka流转换(map / flatMap)中考虑键/值存储中的值？

scala、apache-kafka

我的任务如下：我正在监控来自第三方测量设备的时间同步事件。这次同步有点不稳定，所以我想检测同步何时停止并发出警报。为此，我将向Kafka主题生成同步事件。我有三个不同的事件在进行：由于其他设备未响应，Synchronization requestSynchronization successfulSynchronization失败所以，我想做的是：收到请求，一段时间后什么也没有收到，我想在收到请求时发出超时告警，并且在超时时间内，成功事件到达，如果在超时时间之后没有请求到达，我想发出超时，当失败事件到达时，我想发出other device no respond告警我目前正在设置一个

浏览 50提问于2018-06-08得票数 0

1回答

是否自己创建了一个消费者组(因为它不关心应用程序中给出的group.id属性)

apache-spark、apache-kafka、spark-streaming、spark-streaming-kafka

让我们说，我刚刚推出了一个卡夫卡直接流+火花流应用程序。对于第一批，驱动程序中的流上下文连接到Kafka并获取startOffset和endOffset。然后，启动具有这些开始和结束偏移范围的火花作业，以便执行者从Kafka获取记录。我的问题从这里开始。当第二批的时间，流上下文连接到卡夫卡的开始和结束偏移范围。如果没有允许存储最后一次提交偏移值的使用者组(因为直接流没有考虑到group.id)，那么Kafka如何能够提供这些范围呢？

浏览 4提问于2020-02-27得票数 0

回答已采纳

2回答

使用KStream转换一批记录的最佳实践

apache-kafka-streams

我是KStream新手，我想知道如何使用KStream优化处理n个大小的记录的最佳实践或指导。我有如下所示的工作代码，但它一次适用于单个消息。 KStream<String, String> sourceStream = builder.stream("upstream-kafka-topic", Consumed.with(Serdes.String(), Serders.

浏览 3提问于2022-04-12得票数 0

1回答

Debezium能否捕获邮政物化视图的更改？

postgresql、apache-kafka、apache-kafka-connect、debezium

我们目前正在尝试使用Debezium来捕获Postgres数据库中4个表的更改。我们目前知道，对于这个用例，我们可以使用kafka-streams应用程序为KTable连接/聚合表，但是我们希望保持kafka流拓扑的简单性，所以我们的想法是使用来自Postgres的物化视图并捕获它的变化。是否有可能做到这一点，如果是的话，我们应该如何配置它？卡夫卡连接源配置： { "name": "campaign-db-source-connector", "config": { "connector.class": "

浏览 2提问于2019-10-24得票数 2

回答已采纳

1回答

使用不同的键丰富不同主题的kafka流

apache-kafka、apache-kafka-streams

如何使用另一个具有不同键的主题加入流？下面所有表/流的所有主题都是由DB表使用Kafka connect获取的。我的应用程序是一个，它使用Kafka作为一个组中的单个用户编写，这样我就可以使用每个主题的所有分区。我有一条这样的小溪：来自主题S的流S1有3个分区：键:keyval财政，val1："keyval"，val2：“val2: keyval”键，val1："keyval"，val2："someval1“ 另一个像这样的话题 T1 w/ 6分区：键:tabval_keyval，val1："tabval"，val2：

浏览 5提问于2022-07-29得票数 0

3回答

如何恢复被踢出群的Kafka Consumer？

apache-kafka、kafka-consumer-api

我有一个单一的kafka消费者，它使用轮询机制从kafka检索记录。有时，由于未能在session.timeout周期内调用轮询，该消费者会被踢出消费者组，我已将其配置为30秒。我的问题是，如果发生这种情况，是否会在以后的某个时间点进行投票，将消费者重新添加到组中，或者我是否需要做其他事情？我使用的是kafka版本0.10.2.1 编辑: 2018年8月14日更多信息。在我做完投票之后，我从来不会在同一个线程中处理记录。我只需将所有记录添加到单独的队列(由单独的线程池提供服务)进行处理。

浏览 0提问于2018-08-09得票数 1

1回答

Kafka主题的消费者监控数量

java、apache-kafka、grafana、apache-kafka-streams、prometheus

我们使用Prometheus和Grafana来监控我们的Kafka集群。在我们的应用程序中，我们使用Kafka流，并且有可能Kafka流由于异常而被停止。我们正在记录事件setUnCaughtExceptionHandler，但是，当流停止时，我们还需要某种类型的警报。我们目前拥有的是，jmx_exporter作为代理运行，并通过端点公开Kafka指标，而普罗米修斯从端点获取指标。我们没有看到任何能够给出每个主题的活跃消费者数量的指标。我们是不是错过了什么？任何关于如何获取活跃消费者数量并在消费者停止时发送警报的建议。

浏览 16提问于2018-07-20得票数 2

回答已采纳

2回答

Kafka连接-在写入接收器之前修改记录

hadoop、apache-kafka、apache-kafka-connect

我已经安装了Kafka connect，使用confluent-4.0.0，使用hdfs连接器，我可以将从Kafka topic接收的Avro记录保存到hive。我想知道是否有任何方法可以在写入hdfs接收器之前修改记录。我的要求是对记录的值做一些小的修改。例如，在整数上执行算术运算或操作字符串等。请建议是否有任何方法可以实现这一点

浏览 2提问于2018-03-07得票数 2