Spark Structred Streaming Kafka -如何从主题的特定分区读取并进行偏移量管理

、、

我对spark结构化数据流和kafka的偏移管理是新的。使用spark-streaming-kafka-0-10-2.11。在消费者中，我如何从主题的特定分区中读取？comapany_df = sparkSession

浏览 22提问于2019-05-29得票数 0

2回答

Spark Streaming: Kafka重启后输入速率不正常

、

我目前正在spark上运行一个流媒体应用程序，它使用新的直接方法(没有接收器)消费一个简单的kafka主题。由于我们在Kafka集群上遇到了一些问题，即使在Kafka上恢复正常后，流媒体应用程序也遇到了一些问题:一些作业正在处理几乎空的rdd，而另一些作业正在处理两倍大小的rdd。我在Kafka和Spark两边都没有发现任何堆栈或线索。有人能告诉我如何解决这类问题吗？或者至少到哪

浏览 0提问于2016-05-18得票数 0

1回答

Kafka使用者在知道从和直到偏移量时从主题中读取数据

、、、、

我可以知道kafka消费者是否可以读取特定的记录，当主题的分区偏移量已知时，直到知道该记录为止。在我的spark streaming应用程序中，有几个批次没有被处理(插入到表中)，在这种情况下，我只想读取丢失的数据。我正在存储主题的详细信息，即分区和偏移量。谁能让我知道这是否可以实现从

浏览 10提问于2019-02-20得票数 0

回答已采纳

1回答

关于多个spark* streaming作业消耗同一个群组id的kafka主题的问题*

、、、

我提交了多个spark streaming作业，这些作业使用相同的group.id消耗同一个kafka topic，正如纯Kafka文档中所说的，拥有相同group.id的多个消费者将加入同一个消费组，并且kafka topic中分块的记录将被拆分成这些消费者。然而，正如我在我的工作中测试的那样，这两个spark streaming作业仍然使用相同的</e

浏览 63提问于2021-07-30得票数 0

1回答

如何找到每个Spark* partition正在访问的Kafka分区以及每个微批的偏移量范围？*

、、

为了审计的目的，我需要跟踪每个Spark任务的详细信息，比如任务在哪里运行的worker IP，任务开始和完成的持续时间，它读取的Kafka主题分区，以及每个任务在每个微批间隔内处理的偏移量是多少？我正在使用Kafka Direct streaming方法，我知道我可以使用以下代码 OffsetRange[] offsetRanges = ((H

浏览 0提问于2017-09-17得票数 0

1回答

使用Apache Spark* Batch实现Apache Kafka的偏移管理*

、、

我正在编写一个Spark (v2.2)批处理作业，它从Kafka主题中读取。Spark作业正在使用cron进行调度。我不能使用Spark Structured Streaming，因为不支持非基于时间窗口。val df = spark .format("kafka") .option("kafka.bootst

浏览 15提问于2017-08-28得票数 2

回答已采纳

3回答

如何在星火流应用程序中使用Kafka主题？

、、、

当我从Kafka主题创建一个流并打印它的内容时 os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 pyspark-shell'

浏览 2提问于2019-12-08得票数 1

回答已采纳

1回答

kafka和Spark:通过API获取主题的第一个偏移量

、

我正在玩Spark Streaming和Kafka (使用Scala API)，并想从Spark Streaming的一组Kafka主题中读取消息。KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) 从Kafka读取</em

浏览 1提问于2017-04-07得票数 1

1回答

Spark Structured Streaming-是否可以将偏移量写入两次

、、、、

我正在使用spark structured streaming来消费kafka主题中的数据，并将数据写入另一个kafka接收器。我想存储两次偏移量-从主题读取时存储一次，并搅动偏移量。其次-当将数据写入输出接收器并写入偏移时，这可以通过给出检查点目录位置来实现，是否可以写入订阅topic时消耗的偏移量。

浏览 13提问于2020-03-31得票数 0

1回答

Kafka :将源从MySQL切换到Kafka

、

来自MySQL和Kafka主题的事件数据。我们将从MySQL加载历史数据，然后切换到Kafka，以便当前的data.Mysql ID也会流入Kafka。因此，消息包含事件ID。Kafka流事件将使用spark作业进行处理，并最终将数据摄取到报表中。问题:如何加载历史数据并实时切换到Kafka源。 1-创建临时使用者组以存储所有分区的当前

浏览 18提问于2020-01-23得票数 0

1回答

阅读星火批次作业中的Kafka主题

、、、、

我正在编写一个Spark (v1.6.0)批处理作业，它是从Kafka主题中读取的。为此，我可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD，但是，我需要为所有分区设置偏移量，还需要将它们存储在某个地方(ZK？知道从哪里开始下一批作业。在批处理作业中读取卡夫卡的正确方法是什么？我

浏览 0提问于2016-06-25得票数 7

回答已采纳

2回答

如何从星火流DirectAPI中的每个Kafka分区中并发读取

、、、、

如果我是正确的，默认情况下，星火流1.6.1使用单个线程从每个Kafka分区读取数据，假设我的Kafka主题分区为50，这意味着每个50个分区中的消息将按顺序读取或可能以循环方式读取。案例1： -If是的，那么如何在分区级别并行读取操作？创建多个KafkaUtils.createDirectStream是唯一<

浏览 4提问于2016-12-12得票数 2

1回答

Spark Streaming Kafka中的DStream过滤和偏移管理

、、

我目前正在编写一个Spark流媒体应用程序，它从Kafka读取数据，并在应用一些转换之前尝试解码它。stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)失败的解码和过滤发生在DStream上，而偏移量管理是在foreachRDD内部完成的，这意味着我将只提交成功的记录。stream.asInstanceOf[CanCommitOffsets].commitAsync(of

浏览 0提问于2017-10-31得票数 5

5回答

来自Kafka的Spark流有错误numRecords不能为负

、、、

这是一种奇怪的错误，因为我仍然将数据推送到kafka，并使用来自kafka的消息，而Exception in thread "main" java.lang.IllegalArgumentException我搜索了，但没有得到任何与相关的资源。让我来解释一下我的集群。我有一个服务器是主和代理运行mesos上，我设置了3个经纪人卡夫卡那样。然后，我在该集群上运行spark-job。作业，从kafka</em

浏览 0提问于2016-01-25得票数 11

2回答

spark流中奇怪的延迟

、、、、

我最近一直在使用spark streaming来处理kafka中的数据。大多数情况下，数据处理在1-5秒内完成。我意外地发现Kafka的request.timemout.ms默认设置为40秒，并将此设置更改为10秒。实际处理时间为1-5秒。我的环境如下所示。Spark <em

浏览 2提问于2017-01-18得票数 4

1回答

Spark Direct Stream没有为每个kafka分区创建并行流

、

我们在集成Spark-Kafka streams时遇到了性能问题。项目设置:我们使用3个分区的Kafka主题，每个分区产生3000条消息，并在Spark direct streaming中进行处理。我们面临的问题是:在处理端，我们使用Spark直接流方法来处理相同的内容。如以下文档所示。Spark应该创建与主题中的</e

浏览 3提问于2016-12-08得票数 5

3回答

使用OFFSET恢复KAFKA中丢失的消息

、

假设一个数据包由于故障而丢失(不确定它的使用者故障或代理)。使用offset恢复这段时间内丢失的消息应该做什么(代码实现)？谢谢

浏览 2提问于2016-10-12得票数 1

1回答

Spark结构流批量查询

、、

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。df = spark

浏览 0提问于2020-10-24得票数 0

1回答

Kafka消费者请求超时

、、

我有一个Spark streaming (Scala)应用程序运行在CDH 5.13中，使用client 0.10.0使用Kafka的消息。我的Kafka集群包含3个代理。Kafka topic被划分为12个分区，均匀分布在这3个代理之间。我的Spark流媒体客户有12个执行器，每个执行器都有一个核心。Spark streaming开始从Kafka</em

浏览 0提问于2018-10-09得票数 1

1回答

如何在Kafka* topic中流式传输100G的数据？*

、、

因此，在我们的一个kafka主题中，有接近100 GB的数据。我们正在运行spark-structured来获取S3格式的数据问: spark-streaming如何从Kafka读取数据？是否从<

浏览 0提问于2018-12-20得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark Streaming: Kafka重启后输入速率不正常

Kafka使用者在知道从和直到偏移量时从主题中读取数据

关于多个spark* streaming作业消耗同一个群组id的kafka主题的问题*

如何找到每个Spark* partition正在访问的Kafka分区以及每个微批的偏移量范围？*

使用Apache Spark* Batch实现Apache Kafka的偏移管理*

如何在星火流应用程序中使用Kafka主题？

kafka和Spark:通过API获取主题的第一个偏移量

Spark Structured Streaming-是否可以将偏移量写入两次

Kafka :将源从MySQL切换到Kafka

阅读星火批次作业中的Kafka主题

如何从星火流DirectAPI中的每个Kafka分区中并发读取

Spark Streaming Kafka中的DStream过滤和偏移管理

来自Kafka的Spark流有错误numRecords不能为负

spark流中奇怪的延迟

Spark Direct Stream没有为每个kafka分区创建并行流

使用OFFSET恢复KAFKA中丢失的消息

Spark结构流批量查询

Kafka消费者请求超时

如何在Kafka* topic中流式传输100G的数据？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐