我们可以使用CompletableFutures进行并行Kafka流处理吗_我可以使用spark 2.3.0和pyspark来做Kafka的流处理吗？ - 腾讯云开发者社区

、、

是否可以使用Java CompletableFutures在Kafka stream应用程序中执行并行工作？我想从1Kafka主题中读取，创建两个窗口计数，1分钟，另一个小时，但它们是并行的。我能够让它工作，但是看一下Kafka流文档，因为KafkaStreams为每个分区分配一个任务，并且它不能超过一个线程，我不确定这个代码是否会有预期的效果。

浏览 38提问于2020-07-25得票数 0

回答已采纳

1回答

如何使用数据流并行读取pubsub源文件

、

我是一个非常新的数据流，我希望建立管道，将使用pubsub作为源。我曾经在流水线上工作过，它以flink为流引擎，kafka为源，因为我们可以在flink中设置并行性，以便从kafka读取消息，这样消息处理可以并行进行，而不是顺序进行。我想知道在pubsub->dataflow中是否也可以这样做，或者它只按顺序读取消息。

浏览 2提问于2019-03-26得票数 0

1回答

卡夫卡和卡夫卡流适合我们的情况吗？

、

应用程序当前执行以下操作：fault-toleranceConfluent 缩放处理容易使消息持久地存储在内置的分区、复制和架构注册表中，以便让我

浏览 0提问于2021-01-19得票数 1

1回答

Spark Direct Stream没有为每个kafka分区创建并行流

、

我们在集成Spark-Kafka streams时遇到了性能问题。项目设置:我们使用3个分区的Kafka主题，每个分区产生3000条消息，并在Spark direct streaming中进行处理。我们面临的问题是:在处理端，我们使用Spark直接流方法来处理相同的内容。如以下文档所示。Spark应该创建与主题中的分区数量相同的并行直接流

浏览 3提问于2016-12-08得票数 5

1回答

如何利用期货与卡夫卡流

、、

firstSource.leftJoin(secondSource, joinFunc) .foreach(saveResultToStorage) 我可以使用流中的未来值来管理，还是有更好的方法来处理异步任务(比如Akka中的.mapAsync )？

浏览 3提问于2017-02-15得票数 5

2回答

它只为kafka流DSL提供数据/主题管理。有人能为kafka流的处理器API共享任何相同类型的数据管理链接吗？我对处理器API的用户和内部主题管理特别感兴趣。TopologyBuilder builder = new TopologyBuilder(); // add the source processor node that takes Kafka topic"source-topic" as

浏览 5提问于2017-10-26得票数 0

回答已采纳

2回答

联合流以不同频率更新后的Flink consumer lag

我们使用的是Flink 1.2.1，我们通过联合一个流到另一个流来使用2个kafka流，并处理联合的流。例如Stream1.tium( stream2 )然而，stream2的容量是stream1的100多倍，我们正在经历的是stream2存在巨大的消耗滞后(超过3天的数据)，但stream1的滞后非常小我们已经有9个分区，但1作为并行性，将增加并行性来解决stream2的消耗滞后

浏览 20提问于2019-03-12得票数 0

2回答

在Kafka* Streams应用程序中启动新线程(使用编程方式)是否可取？*

、、

我们正在使用低级处理器API开发一个Kafka Streams应用程序。根据Kafka上的文档，所有的线程和并行性都是由Stream线程和流任务处理的。使用主题上的分区，并行性也是可扩展的。/ Write back to output topic }); } 但是，是否建议在任何情况下创建我们</e

浏览 15提问于2019-05-29得票数 2

1回答

基于Avro消息的Spark结构化流与架构注册表集成

、、、、

我们有一个用例，我们试图使用多个Kafka主题(、AVRO、)与模式注册表集成。我们使用星火结构流(火花版本: 2.4.4)，合流卡夫卡(图书馆版本: 5.4.1)进行相同的操作： .formatKafka主题，我们已经将所有JSON模式集成到映射中，其中键是主题名，values是各自的模式。，我们如何在上面的选

浏览 5提问于2020-04-18得票数 0

1回答

如何处理flink流作业中的背压？

、

我正在运行一个流flink作业，它消耗了kafka的流数据，并对flink映射函数中的数据进行了处理，并将数据写入Azure数据湖和弹性搜索。对于map函数，我使用了一个并行性，因为我需要在作为全局变量维护的数据列表上逐个处理传入的数据。现在，当我运行这项工作时，flink开始从kafka获取流数据，它的背压在映射函数中变得很高。有什么设置或配置，我可以做，以避免反压力在flink？

浏览 6提问于2017-07-22得票数 1

1回答

Akka streams Kafka消费者进程并行

、、、、

我正在开发一个使用Akka Kafka连接器的Kafka消费者应用程序。我希望消费者并行处理消息。我应该选择哪个消费群体？？如何在消费者端配置并行度？

浏览 16提问于2020-05-06得票数 0

1回答

Apache Samza和Apache Kafka流之间的区别(侧重于并行性和通信)

、

在Samza和Kafka流中，数据流处理是在处理步骤( Samza中称为“作业”，Kafka Streams中称为"processor“)的序列/图(Samza中称为”数据流图“，Kafka Streams让我们假设我们有一个非常简单的工作流，包括一个工作人员A，它使用传感器测量值并过滤所有低于50的值，然后是一个工作人员B，它接收剩余的测量值，并过滤80以上的

浏览 2提问于2016-12-09得票数 27

2回答

我们能提高java 8并行流以外的列表的性能吗？

、、、、

现在使用并行流，并使用forEach完成每个项目。现在，对于每个元素，我必须调用其他api来获取数据，该数据再次返回list，并通过调用另一个rest保存相同的列表。

浏览 2提问于2019-03-23得票数 0

1回答

使用属性启用/禁用春云流中的kafka绑定

、

是否有任何属性可以启用/禁用春云流中的kafka绑定。我想把卡夫卡活页夹包含在pom.xml，但想禁用/启用卡夫卡绑定在生产中可选。为什么我们需要这个：我们正在将我们的一个应用程序从oracle db/JMS基础结构迁移到Mongo/Kafka基础结构。为了验证，我们将并行运行这两个版本的应用程序。我们通过拥有单独的dao层和控制器层以及保持一个公共服务层，为两者维护相同的源

浏览 0提问于2018-11-21得票数 1

1回答

同一Kafka主题的多个Flink管道

、

背景时不时地，我们的Flink不能处理突发信息。这将需要使用快照停止Flink作业，重新配置并行度，然后使用新的并行度重新启动。这将是伟大的，但我们不能允许自己的停机时间，它产生。我们必须在不停机的情况下扩大/缩小

浏览 27提问于2019-11-14得票数 1

2回答

暂停流消耗

、、

我们的团队已经决定使用Kafka，我认为它不适合用例，因为Kafka最适合流数据。相反，我们本来也可以更好地使用传统的消息模型。虽然Kafka确实为每个分区提供了排序，但在传统消息系统上，如果消息数量较少，数据源也较低，则可以实现同样的功能。这是一个公平的声明吗？我们使用Kafka流来处理数据，而处理要求我们对

浏览 10提问于2016-08-11得票数 1

回答已采纳

1回答

金刚卡夫卡溪流

、

我正在尝试使用golang在Go中创建一个kafka流客户端。据我所见，这只有在使用Java客户机时才有可能。我做了一些搜索，并找到了其他一些第三方图书馆，但没有正式的。另外，根据我有限的理解，我认为流是语法糖而不是标准消费者吗？这是对的吗？

浏览 4提问于2021-12-13得票数 1

1回答

有什么方法可以在Java中获得与RocksDb很强的一致性吗？

、、

我有一个程序，它使用多个线程访问单个RocksDB。对于给定的文档，我们的工作流程是读取缓存，做一些工作，然后更新缓存。我的代码使用链式CompletableFutures按顺序处理多个文档(并在启动后续文档之前处理第一个文档)。因此，我的RocksDB工作负载由(读、写)为同一键重复几次。大多数情况下，我们从缓存中为每个运行在工作流中的人获得正确的值，但偶尔我们会得到陈旧的数据。每个操作都可以在执行器中的多个线程

浏览 8提问于2022-07-26得票数 0

回答已采纳

6回答

基于Java的工作流解决方案

、

我们目前使用顺序工作流来处理文档。我们总共有10个不同的工作流步骤。我们对工作流进行了重新分析，实现了对工作流进行重构，并行处理多个工作流步骤。基本上，我们能够并行地处理步骤1,2,3,4，直到步骤1-4完成，然后处理步骤5，然后并行地处理步骤6,7,8,9，直到步骤6-9完成，最后是

浏览 17提问于2010-12-20得票数 3

回答已采纳

2回答

多处理kafka消息

、、、

我们有一个kafka消费者，它不断地轮询kafka主题并处理消息。我们正面临着我们应该为max.poll.records赋予多少价值的问题。为了处理这条消息中的每条消息，我们有3个rest调用。我所做的是使用并行流以列表和处理的形式获取消息。实例有2 2GB内存空间，max.poll.records为8。因此，现在如果我增加max.poll.records，消息处理</em

浏览 5提问于2019-01-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云