无法手动提交kafka直播流中的偏移量，Spark流_如何在Spark Kafka直播流中手动提交offset？_Spark -获取Kafka的最早和最新偏移量，无需打开流 - 腾讯云开发者社区

、、、

我使用从卡夫卡主题(例如topic1)中读取，并使用接收器写入另一个主题(主题1-结果)。我可以看到，在使用Sink编写到另一个主题之后，这些消息并没有从Topic1中删除。 // Subscribe to 1 topic val df = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", "host1:port1") .option("subscribe", "topic1") .load() //SI

浏览 2提问于2020-02-11得票数 0

回答已采纳

1回答

在Spark 2.1的Spark-kafka集成中，有多少个执行者被指派去听一个kafka话题？

、、

我有一个Spark集群，总共有17个executors。我已经将Spark 2.1与Kafka集成在一起，并从topic中读取数据，例如： val df = spark .readStream .format("kafka") .options("kafka.bootstrap.servers","localhost:9092") .options("subscribe","test") .load 现在我想知道，当我以集群模式提交我的spark应用程序时，将分配多少个执行者(总共17个)来监

浏览 0提问于2018-09-05得票数 2

1回答

卡夫卡的pySpark结构化流不输出到控制台进行调试。

、、、、

下面是我的密码。我尝试了许多不同的选择变体，但应用程序运行，但没有显示消息，这些信息正在编写的每一秒。我有一个使用pprint()的星火流示例，它确认kafka实际上每秒钟都会收到消息。Kafka中的消息是JSON格式的，请参见字段/列标签的架构： from pyspark.sql.functions import * from pyspark.sql.types import * import statistics KAFKA_TOPIC = "vehicle_events_fast_testdata" KAFKA_SERVER = "10.2.0.6:2181&

浏览 6提问于2019-12-31得票数 4

回答已采纳

1回答

kafka streams应用程序-重启时忽略旧消息

、

我处理活动应用程序的时序数据。因此，旧数据没有任何意义。我只想处理流应用程序启动后收到的数据，而不是之前提交的偏移量。重启后忽略kafka流app旧记录的正确方式是什么？对于kafka consumer API，我通常使用seekToEnd()方法来跳转到最新的记录。是否有用于流的等效机制？我希望避免过滤自上次提交以来的所有消息，以忽略旧消息。

浏览 3提问于2017-11-15得票数 2

1回答

"OffsetOutOfRangeException:偏移超出范围而没有配置分区重置策略“的含义是什么？

、、、

我使用ApacheSpark2.4.1和。 Dataset<Row> df = sparkSession .readStream() .format("kafka") .option("kafka.bootstrap.servers", SERVERS) .option("subscribe", TOPIC) .option("startingOffsets", "latest") .option("auto.offset.reset", "earlie

浏览 1提问于2019-12-11得票数 1

1回答

使用checkpointLocation偏移量从Kafka主题读取流的正确方法

、、、、

我正在尝试开发一个小型星火应用程序(使用Scala)来读取Kafka (合流)中的消息，并将它们写入Hive表。除了一个重要的特性--在应用程序重新启动时管理偏移量(submited)，一切都按预期工作。这让我很困惑。从我的代码中删除 def main(args: Array[String]): Unit = { val sparkSess = SparkSession .builder .appName("Kafka_to_Hive") .config("spark.sql.warehouse.dir", &

浏览 0提问于2020-10-22得票数 2

回答已采纳

2回答

Spark Structured Kafka偏移管理

、、、

我正在研究在kafka中存储kafka偏移量用于Spark结构化流媒体，就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样，与我正在寻找的相同，但用于结构化流媒体。它是否支持结构化流媒体？如果是，我如何实现它？我知道使用.option("checkpointLocation", checkpointLocation)的hdfs检查点，但我对内置的偏移量管理很感兴趣。我期望kafka只在内部存储偏移量，而不使用spark hdfs检查点。

浏览 10提问于2019-05-16得票数 3

1回答

如何在Spark3.0结构化流中使用kafka.group.id和检查点来继续读取重新启动后停止运行的Kafka的内容？

、、、、

基于对Spark3.0，的介绍。应该可以设置"kafka.group.id“来跟踪偏移量。对于我们的用例，如果流火花作业失败并重新启动，我希望避免潜在的数据丢失。基于我之前的问题，我有一种感觉，在Spark3.0中的kafka.group.id是有帮助的东西。但是，我尝试了火花3.0中的设置，如下所示。 package com.example /** * @author ${user.name} */ import scala.math.random import org.apache.spark.sql.SparkSession import org.apache.sp

浏览 2提问于2020-09-22得票数 6

回答已采纳

1回答

通过读取具有两个不同spark结构化流的相同主题来调试Kafka流水线

、、、

我有一个Kafka主题，就是在我的产品中流式传输数据。我希望使用相同的数据流进行调试，而不影响现有管道的偏移量。我记得在早期版本中为此目的使用了创建不同的消费者组，但我使用Spark structured从Kafka读取数据，它不鼓励在从kafka读取数据时使用groupID。

浏览 27提问于2020-10-16得票数 1

回答已采纳

1回答

这怎么可能呢？Kafka队列中是否存在重复记录？

、、、、

我使用Apache Nifi、Spark和Kafka在它们之间发送消息。首先，我使用Nifi获取数据，并将其发送到Spark进行处理。然后，我再次将数据从Spark发送到Nifi，以将其插入到DB中。我的问题是，每次我运行Spark，我都会得到同样的3.142条记录。我停止了Nifi的第一部分，第二部分正在运行，每次我运行Spark时，我都有相同的3.142条记录，现在我无法理解这些数据。它是从哪里来的？我尝试查看Kafka-Queue-I (从Nifi到Spark)或Kafka-Queue-II (从Spark到NiFi)上是否有数据，但在这两种情况下，答案都是否定的。只有当我运行Sp

浏览 15提问于2020-02-14得票数 0

2回答

如何使用direct stream在Kafka Spark Streaming中指定消费群

、、、、

如何使用直播流API指定kafka spark流的消费组id。 HashMap<String, String> kafkaParams = new HashMap<String, String>(); kafkaParams.put("metadata.broker.list", brokers); kafkaParams.put("auto.offset.reset", "largest"); kafkaParams.put("group.id", "app1"); JavaPa

浏览 0提问于2016-04-09得票数 7

回答已采纳

4回答

Kafka结构化流检查点

、、

我正在尝试从Kafka做结构化流媒体。我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录中获取最新的偏移量，并在该偏移量之后加载数据。我将检查点存储在一个目录中，如下所示。 df.writeStream\ .format("text")\ .option("path", '\files') \ .option("

浏览 3提问于2017-10-07得票数 4

1回答

KTables如何在创业时与卡夫卡互动？

、

我有点搞不懂这在概念上是如何运作的。 kafka流如何保证由kafka broker分配给它的分区与分配给其他主题的分区匹配？好像需要协调一下吗？而且，卡夫卡流总是从一开始就阅读压缩的主题，还是从最新的偏移量中读取？一旦它从压缩的主题中读取消息，它是否提交偏移量？

浏览 2提问于2020-07-31得票数 0

回答已采纳

2回答

在Kafka主题中使用来自分区分区的Spark流数据

、、、、

我已经看到了一个类似于的问题但是，我仍然想知道来自特定分区的流数据是否不可能实现？我使用了卡夫卡消费策略在星火流订阅方法。 ConsumerStrategies.Subscribe 这是我尝试订阅主题和分区的代码片段， val topics = Array("cdc-classic") val topic="cdc-classic" val partition=2; val offsets= Map(new TopicPartition(topic, partition) -> 2L)//I am not clear with this lin

浏览 0提问于2018-06-07得票数 0

回答已采纳

1回答

在带有Kafka的星火结构流中，火花如何管理多个主题的偏移量

、、、、

考虑一下Spark结构化的流媒体作业，它读取来自Kafka的消息。如果我们已经定义了多个主题，那么代码如何管理每个主题的偏移量？我已经通过了KafkaMicroBatchStream类，无法得到如何如果得到的偏移为不同的主题。 def latestOffset(开始:偏移，readLimit: ReadLimit)：偏移；方法只返回一个偏移量。尝试理解实现，因为我需要编写来自多个RDBMs表的自定义源代码，每个表都有自己的偏移量。该偏移量将仅在RDBMS表中管理。

浏览 2提问于2020-12-07得票数 1

回答已采纳

1回答

使用者无法打印来自生产者的消息。

、、、

好的，如果运行以下命令，我得到了相同的错误Unable to connect to zookeeper server within timeout: 10000：spark-submit --jars spark-streaming-kafka-0-8-assembly_2.11-2.4.4.jar receiver_based.py localhost:9092 test2 如果我按照上面文章中的解决方案更改localhost:2181而不是localhost:9092，那么现在似乎动物园管理员已经连接到了，但是我无法使用这个命令spark-submit --jars spark-strea

浏览 1提问于2019-12-15得票数 1

1回答

电火花中的卡夫卡"partition.assignment.strategy“

、、、

我试图读取数据以将其转换为Dataframe，我的软件的当前版本如下： spark-2.4.7-bin-hadoop2.7 卡夫卡_2.12-2.7.0 卡夫卡正在工作，我正在努力阅读以下数据： ~/development/kafka_home/kafka_2.13-2.6.0$ bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic testtopic --from-beginning {"transaction_id": "1", "transac

浏览 0提问于2021-01-25得票数 1

1回答

Kafka中kafka.common.OffsetOutOfRangeException异常的原因是什么

我正在使用Kafka Mirrormaker来模拟到运行Spark的弹性MapReduce集群的生产流量。下面是我的设置： 1)一个Kafka Mirrormaker实例消耗生产Kafka实例并填充测试Kafka实例 2) Kafka Mirrormaker的第二个实例使用1)中创建的测试Kafka实例，并发布到新的Kafka集群 3)弹性MapReduce集群消费3)中的Kafka集群。问题是我在日志文件中看到了kafka.common.OffsetOutOfRangeException错误。我想知道如何防止这种情况发生。这是我在运行EMR作业时使用的过程： 1)杀死我正在运行的Mirr

浏览 0提问于2018-12-28得票数 0

3回答

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量存储到事务型DB中，如何从结构化流批处理中获取偏移量？以前，这可以通过将RDD转换为HasOffsetRanges来完成 val offsetRanges = rdd.asInstanceOf[HasOffsetRa

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

如何用火花结构流管理卡夫卡的偏移量

、

我有一个火花结构化的流媒体工作，它需要读取kafka主题中的数据并进行一些聚合。作业需要每天重新启动，但是当它重新启动时，如果我设置了startingOffsets="latest"，就会丢失在重新启动之间的数据。如果我设置了startingOffsets="earliest"，那么作业将从主题读取所有数据，而不是从上一个流作业离开的位置读取数据。有人能帮助我如何配置，以设置偏移的权利，在最后一次流作业离开？我使用的是Spark2.4.0和kafka 2.1.1，我尝试为编写作业设置检查点位置，但似乎Spark没有检查卡夫卡消息的偏移量，因此它根据starti

浏览 1提问于2019-05-15得票数 1

回答已采纳

1回答

kafka-使用者组命令不会显示火花结构化流应用程序(消费者)的滞后和当前偏移。

、、、、

我有一个星星之火的结构化流应用程序从kafka消费，对于这个应用程序，我想监测消费者的滞后。我使用下面的命令来检查用户延迟。但是，我没有得到当前的偏移量，因此滞后也是空白的。这是预期的吗?它适用于其他基于python的消费者。命令 kafka-consumer-groups --bootstrap-server <bootstrap-server>:<port> --describe --all-groups 输出 GROUP TOPIC

浏览 4提问于2021-01-22得票数 1

回答已采纳

1回答

当尝试使用Spark处理消息时，Kafka消费者多次消费消息

、、、、

我有一个Kafka消费者，它从主题中读取消息，并使用spark将其写入到hive表中。当我在Yarn上运行代码时，它会多次读取相同的消息。我在这个主题中有大约100,000条消息。但是，我的消费者仍然多次阅读相同的内容。当我做distinct时，我会得到实际的计数。这是我写的代码。我想知道我是否遗漏了任何设置。 val spark = SparkSession.builder() .appName("Kafka Consumer") .enableHiveSupport() .getOrCreate() import spar

浏览 16提问于2020-07-22得票数 2

2回答

卡夫卡的火花DStream总是从一开始就开始

、、

查看我对解决方案的公认答案的最后评论我配置了一个DStream，如下所示： val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "kafka1.example.com:9092", "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[KafkaAvroDeserializer], "g

浏览 3提问于2018-07-04得票数 0

回答已采纳

1回答

星星之火1.4失踪的Kafka图书馆

、、、、

我正在尝试运行一个Python脚本，该脚本在Spark1.3.1中运行得很好。我已经下载了Spark1.4并尝试运行这个脚本，但是它一直在说星火流的卡夫卡库在类路径中找不到。尝试以下其中之一。将Kafka库及其依赖项作为$bin/submit-packages org.apache.sight:streaming:1.4.0. 从Maven Central 下载工件的JAR，Group = org.apache.spark，artifact =，Version = 1.4.0。然后，将jar包含在星火提交命令中，如 .spark=‘spark 1’>. 我在提

浏览 2提问于2015-07-08得票数 3

1回答

无法解析"createStream“中的"KafkaUtils”方法

、、、、

我试图使用Apache和Spark来流数据，但是我在代码的第24行中发现了一个错误：“无法解决”KafkaUtils“中的”KafkaUtils“方法”。我也尝试过使用KafkaUtils.createDirectStream，但这也不起作用。如何解决此错误？下面是我正在使用的文件 NumbersConsumer.java import java.util.HashMap; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.streaming.Duration; import org

浏览 12提问于2022-11-30得票数 0

1回答

Spark Structured Streaming-无法打印日志中的数据

、、

我使用Scala中的Spark结构化流代码，以JSON数据格式使用Kafka主题中的数据，并将数据写入另一个kafka接收器。我们正在以集群模式提交作业，并且我们正在尝试检查否。一批邮件的数量，但我们看不到编号。成批传入的消息被写入日志。是否有可能找出成批进入日志文件的消息的编号。

浏览 0提问于2020-03-31得票数 0

1回答

如何使用Camel-kafka提交消费者偏移量？

、

我正在使用apache camel集成我的kafka消息。此外，我还使用JAVA DSL来使用来自kafka端点的消息。使用apache kafka API，它知道如何提交具有给定属性切换的消费者偏移量。如果我在camel-kafka组件中取消了自动提交，那么我如何在apcahe camel中提交偏移量呢？我使用下面的端点在Apache Camel中禁用自动提交 kafka.consumer.uri = kafka://{{kafka.host}}?zookeeperHost={{zookeeper.host}}&zookeeperPort={{zookeeper.port}}&

浏览 9提问于2015-09-21得票数 5

2回答

无法手动提交kafka直播流中的偏移量，Spark流

、、、

我正在尝试验证手动偏移量提交的工作情况。当我尝试通过使用thread.sleep()/jssc.stop()/在while循环中抛出异常来退出作业时，我看到偏移量正在被提交。我只是为了测试而发送了几条消息，但是一旦作业开始处理批处理，我就会看到0延迟。 spark什么时候实际提交了偏移量？ JavaInputDStream<ConsumerRecord<String, String>> kafkaStream = KafkaUtils.createDirectStream(jssc, LocationStrategies.P

浏览 25提问于2019-10-19得票数 2

回答已采纳

1回答

从“未配置分区重置策略的偏移量超出范围”中恢复

、

我有Spark Structured应用程序(Spark 2.4.5)，它是从Kafka消费的。应用程序停机了一段时间，但当我重新启动它时，我得到了下面的错误。我完全理解为什么我会得到这个错误，我对此没有意见。但我似乎无法绕过它。根据日志，我看到“从最早的偏移量中恢复: 1234332978”，但这似乎确实正在发生。我尝试删除检查点位置中的“source”文件夹，但也没有帮助。我的代码使用了一个mapGroupWithState函数，所以我确实有不想丢失的状态数据，因此删除整个检查点目录不是我的首选方法。我已经设置了： .option("failOnDataLoss"，f

浏览 88提问于2020-07-29得票数 0

1回答

结构化流Kafka 2.1->齐柏林飞艇0.8->星火2.4:火花不使用jar

、、、、

我有一个Kafka2.1消息代理，希望对Spark2.4中的消息数据进行一些处理。我想用齐柏林飞艇0.8.1笔记本进行快速原型。我下载了结构化流()所必需的星火流-kafka-0-10_2.11.jar，并将其作为“依赖-工件”添加到齐柏林飞艇( Zeppelin )的“streaming”-interpreter(也处理%pyspark段落)中。我重新启动了这个解释器(还有齐柏林飞艇)。我还把罐子装进了笔记本的第一段(我首先认为这不应该是必要的.)： %dep z.load("/usr/local/analyse/jar/spark-streaming-kafka-0-10_2.

浏览 1提问于2019-07-19得票数 5

回答已采纳

1回答

使用高级消费者API的Kafka offsetcommit请求

、

我想使用Kafka高级消费者API，同时我想禁用偏移量的自动提交。我试图通过以下步骤来实现这一点。 1) auto.commit.enable = false 2) offsets.storage = kafka 3) dual.commit.enabled = false 我创建了一个偏移管理器，它定期创建对kafka的offsetcommit请求并提交偏移。我仍然有以下问题 1)高级消费者API是否会自动从kafka存储中获取偏移量，并使用该偏移量进行初始化？或者我应该使用简单的消费者API来实现这一点？ 2)是否所有代理都支持基于kafka的偏移量存储？或者只在一个代理上维护它？

浏览 1提问于2015-04-28得票数 5

1回答

卡夫卡偏移量超出范围

、、

我正在用scala编写一个与kafka进行火花流连接的程序，我得到了以下错误： 18/02/19 12:31:39 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 39) org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {prensa4-0=744} at org.apache.kafka.clients.

浏览 0提问于2018-02-19得票数 2

2回答

Spark Structured Streaming NOT process Kafka offset过期

、、

我们有火花结构化流媒体应用程序，将数据从卡夫卡推送到S3。 Spark Job在几天内运行良好，然后开始累积延迟。我们有Kafka主题，过期6小时。如果延迟增加，并且一些偏移量开始过期，则Spark无法找到偏移量，并在警告后开始记录。从表面上看，Spark job似乎正在运行，但它没有处理任何数据。当我尝试手动重新启动系统时，我遇到了GC问题(见下面的屏幕截图)。我已将"failOnDataLoss“设置为"false”。我们希望系统不会在找不到偏移量时停止处理。除了下面提到的警告之外，我没有在日志中看到任何错误。我们看到的唯一警告是： The current av

浏览 1提问于2020-05-18得票数 1

1回答

Spark结构流批量查询

、、

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。集群A(本地机器)获取了6条记录，集群B( TST集群-第一次运行)获取了1条记录。 df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers",

浏览 0提问于2020-10-24得票数 0

4回答

星火结构流查询总是以auto.offset.rest=earliest开始，即使设置了auto.offset.reset=latest

、、、

我有一个奇怪的问题，试图读取数据从卡夫卡使用火花结构化流。我的用例是能够从最大的/最新的偏移量中读取主题。我的阅读吐露： val data = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", "some xyz server") .option("subscribe", "sampletopic") .option("auto.offset.reset",

浏览 1提问于2018-02-14得票数 4

1回答

如何在特定doFun执行结束时在Apache梁中手动提交Kafka偏移量

、、

我创建了一个简单的Apache光束流管道，它从Kafka读取数据，进行一些处理，并通过调用一些外部服务的API来持久化结果。我希望确保在管道重启或失败期间不会丢失数据，因此我希望在特定doFun执行结束时成功调用接口后，手动将记录偏移量提交给Kafka。在我之前的Kafka经验中，我知道通过使用Kafka Consumer的below接口，我可以手动将记录偏移量提交给Kafka。 consumer.commitSync(currentOffsets); 在KafkaIO设置中有关闭自动提交的设置，但是我没有找到任何有效的解决方案来手动提交偏移量，因为似乎没有办法在doFun中访问消费者。

浏览 10提问于2021-09-21得票数 1

回答已采纳

1回答

火花结构化流不能在Kafka补偿处重新启动

、、

我们有一个长期运行的Spark结构化流查询，它是从Kafka读取的，我们希望这个查询在重新启动后恢复到它停止的位置。但是，我们已经将startingOffsets设置为"earliest“，我们在重新启动后看到的是，查询再次从卡夫卡主题的开头读取。我们的基本查询如下： val extract = sparkSession .readStream .format("kafka") .option("kafka.bootstrap.servers", "server:port") .option("

浏览 2提问于2017-07-25得票数 4

1回答

使用Spark structured streaming 2.2 batch API管理Kafka偏移量

、、

只想知道Kafka偏移量的检查点是否适用于Spark structured stream (2.2)批处理API，或者我们需要管理偏移量吗？

浏览 2提问于2018-01-16得票数 1

2回答

如何使用星星之火将卡夫卡主题中的writeStream数据转换为hdfs？

、、、、

几个小时以来，我一直试图让这段代码正常工作： val spark = SparkSession.builder() .appName("Consumer") .getOrCreate() spark.readStream .format("kafka") .option("kafka.bootstrap.servers", url) .option("subscribe", topic) .load() .select("value") .writeStream .format(fileFor

浏览 0提问于2018-11-20得票数 0

回答已采纳

4回答

如何保存火种消耗到ZK或Kafka的最新偏移量，并在重新启动后可以读取

、、、

我使用Kafka 0.8.2从AdExchange接收数据，然后使用Spark Streaming 1.4.1将数据存储到MongoDB。我的问题是当我重新启动我的Spark Streaming作业时，比如更新新版本，修复bug，添加新功能。它将继续阅读最新的offset of kafka，然后我将失去数据AdX推动卡夫卡在重新启动作业。我尝试了一些类似于auto.offset.reset -> smallest的东西，但是它最后会从0 ->接收到，那时数据是巨大的，在db中是重复的。我还尝试将特定的group.id和consumer.id设置为Spark，但它是相同的。如

浏览 5提问于2015-08-06得票数 14

回答已采纳

2回答

Spark Structured Streaming中的提交消息

、、

我使用的是spark sturctured (2.3)和kafka 2.4版本。我想知道如何使用ASync and Sync提交偏移量属性。如果我将enable.auto.commit设置为true，它是Sync or ASync吗？如何在spark structured streaming中定义回调？或者我如何在Spark structured streaming中使用Sync or ASync？提前感谢我的代码 package sparkProject; import java.io.StringReader; import java.util.*; import java

浏览 0提问于2020-03-20得票数 0

2回答

我们可以在spark结构流批量模式下从Kafka中从特定偏移量获取数据吗

在kafka中，我动态地获得新的主题，并且我必须使用来自特定偏移量的火花流来处理它。是否有可能从变量传递json值。例如，考虑下面的代码 val df = spark .read .format("kafka") .option("kafka.bootstrap.servers", "host1:port1,host2:port2") .option("subscribePattern", "topic.*") .option("startingOffsets", ""&#

浏览 0提问于2020-06-03得票数 0

1回答

如何将spark结构化流数据重置为最后一个可用偏移量

、、、

我正在使用Kafka运行一个结构化的流应用程序。我发现如果由于某种原因系统停机了几天...检查点变得陈旧，并且在Kafka中找不到与检查点对应的偏移量。我如何让Spark结构化流媒体应用选择最后一个可用的偏移量，并从那里开始。我尝试将偏移量重置设置为较早/最新，但系统崩溃，出现以下错误： org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {MyTopic-574=6559828} at

浏览 3提问于2020-04-19得票数 0

2回答

使用pyspark批处理作业读取Kafka的最新记录

、

我正在pyspark中执行一个批处理作业，其中spark将每5分钟读取一次kafka主题中的数据。 df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers", "host1:port1") \ .option("subscribePattern", "test") \ .option("startingOffsets", "earliest") \ .option(

浏览 2提问于2020-03-04得票数 0

1回答

Kafka客户端上的哪个API允许将偏移量重置为上次提交的偏移量？

、

我使用的是java版本的Kafka客户端版本0.10.0.0。在我的例子中，自动提交是关闭的，我们使用KafKaClient.poll(timout) api读取。我们处理所有的消息，如果一切顺利，我们显式地调用commitSync()。但在无法处理消息的情况下，我们希望能够从最后一次提交中重新读取。查看API，我没有发现任何明显的东西。有人能给我指出正确的方向吗？谢谢。

浏览 6提问于2017-01-12得票数 1

回答已采纳

1回答

如何获取kafka的最新偏移量

、、、

我想使用kafka+spark流来建立一个应用程序，该应用程序将接收不同主题的数据。我想使用这个方法 def createDirectStream[ K: ClassTag, V: ClassTag, KD <: Decoder[K]: ClassTag, VD <: Decoder[V]: ClassTag, R: ClassTag] ( ssc: StreamingContext, kafkaParams: Map[String, String], fromOffsets: Map[TopicAndPartition, Long], messageHandler

浏览 0提问于2017-03-06得票数 1

1回答

阿帕奇火花与卡夫卡流-失踪的卡夫卡

、、、

我试着用kafka来设置Apache，并用本地语言编写了简单的程序，它失败了，无法从调试中找到答案。 build.gradle.kts implementation ("org.jetbrains.kotlin:kotlin-stdlib:1.4.0") implementation ("org.jetbrains.kotlinx.spark:kotlin-spark-api-3.0.0_2.12:1.0.0-preview1") compileOnly("org.apache.spark:spark-sql_2.12:3.0.0") imple

浏览 11提问于2021-12-26得票数 1

1回答

为什么在访问偏移量时，ClassCastException与重新分区的dstream一起发生流流失败？

、、

在我的星火应用程序中，我以如下方式从一个Kafka主题创建了一个DStream： KafkaUtils .createDirectStream[String, Array[Byte], StringDecoder, DefaultDecoder, (String, Array[Byte])]( streamingContext, kafkaParams, offset.get, { message: MessageAndMetadata[String, Array[Byte]] => (message.key(), message.message()

浏览 3提问于2017-05-30得票数 1

回答已采纳

1回答

Spark 2应用程序失败，无法找到错误的引线偏移

、

我有我的spark应用程序，从Kafka读取数据并摄取到Kudu。它已经成功运行了近25个小时，并将数据摄入到了Kudu中。在那之后，我看到从kafka日志中选出了新的kafka分区的领导者。我的应用程序进入完成状态，并出现以下错误 org.apache.spark.SparkException: ArrayBuffer(kafka.common.NotLeaderForPartitionException, org.apache.spark.SparkException: Couldn't find leader offsets for Set([test,0])) at org.a

浏览 20提问于2018-02-13得票数 0

1回答

Spark 2.1结构化流--使用Kakfa作为Python的源(pyspark)

、、、

对于ApacheSparkVersion2.1，我想使用Kafka (0.10.0.2.5)作为结构化流的源： kafka_app.py： from pyspark.sql import SparkSession spark=SparkSession.builder.appName("TestKakfa").getOrCreate() kafka=spark.readStream.format("kafka") \ .option("kafka.bootstrap.servers","localhost:6667") \ .o

浏览 4提问于2017-03-20得票数 2

回答已采纳