如何在Spark SQL中正确保存Kafka偏移量检查点，以便在join后重启应用程序

在Spark SQL中正确保存Kafka偏移量检查点，以便在join后重启应用程序，可以通过以下步骤实现：

创建一个Kafka消费者，用于读取Kafka主题中的数据。可以使用Spark提供的KafkaUtils.createDirectStream方法来创建消费者。
在消费者中，通过foreachRDD方法将每个批次的RDD保存到外部存储系统中，以便在应用程序重启时可以恢复偏移量。可以选择将偏移量保存到HDFS、S3或其他支持分布式存储的系统中。
在保存偏移量之前，需要先获取当前批次的偏移量信息。可以通过KafkaRDD的offsetRanges属性来获取偏移量范围。
将偏移量信息转换为可序列化的格式，例如JSON或字符串，并保存到外部存储系统中。可以使用HDFS的saveAsTextFile方法将偏移量保存为文本文件，或使用其他适合的方法。
在应用程序重启时，首先从外部存储系统中读取保存的偏移量信息。
将读取的偏移量信息转换为OffsetRange对象，并使用KafkaUtils.createRDD方法创建一个新的KafkaRDD。
使用创建的KafkaRDD作为输入源，继续进行后续的数据处理操作，例如join操作。

总结：在Spark SQL中正确保存Kafka偏移量检查点，以便在join后重启应用程序，需要创建一个Kafka消费者并将每个批次的偏移量信息保存到外部存储系统中。在应用程序重启时，读取保存的偏移量信息并将其转换为KafkaRDD，然后继续进行后续的数据处理操作。这样可以确保应用程序在重启后能够从上次处理的位置继续进行数据处理。

页面内容是否对你有帮助？

有帮助

没帮助

Kafka结构化流检查点

hadoop、pyspark、spark-structured-streaming

我正在尝试从Kafka做结构化流媒体。我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录中获取最新的偏移量，并在该偏移量之后加载数据。我将检查点存储在一个目录中，如下所示。 df.writeStream\ .format("text")\ .option("path", '\files') \ .option("

浏览 3提问于2017-10-07得票数 4

3回答

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

apache-spark、apache-kafka、apache-spark-sql、offset、spark-structured-streaming

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量存储到事务型DB中，如何从结构化流批处理中获取偏移量？以前，这可以通过将RDD转换为HasOffsetRanges来完成 val offsetRanges = rdd.asInstanceOf[HasOffsetRa

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

手动重置kafka偏移量时，Flink偏移量进入不一致状态

apache-kafka、flink-streaming

我们有一个flink流应用程序，从卡夫卡读取消息。由于某些原因，我们不得不从kafka重置命令将kafka偏移重置为最新，因为有大量堆积。我们希望flink应用程序跳过所有这些消息，并从重置后出现的新消息开始。问题是因为flink在内部管理它的偏移量，它不知道这个重置，它现在只从后向读取msg (重置前的偏移点)，现在也不能提交偏移量。因此，每次重启flink应用程序时，它都会再次从同一点读取。因此，我们在每次重启时都有重复的msg。我知道我们不应该在flink kafka应用中手动重置偏移量。但是我们怎样才能从中恢复过来呢。我已经尝试将auto.offset.config设置为最新，

浏览 62提问于2021-06-19得票数 4

回答已采纳

1回答

如何在Spark3.0结构化流中使用kafka.group.id和检查点来继续读取重新启动后停止运行的Kafka的内容？

scala、apache-spark、apache-kafka、spark-structured-streaming、spark-kafka-integration

基于对Spark3.0，的介绍。应该可以设置"kafka.group.id“来跟踪偏移量。对于我们的用例，如果流火花作业失败并重新启动，我希望避免潜在的数据丢失。基于我之前的问题，我有一种感觉，在Spark3.0中的kafka.group.id是有帮助的东西。但是，我尝试了火花3.0中的设置，如下所示。 package com.example /** * @author ${user.name} */ import scala.math.random import org.apache.spark.sql.SparkSession import org.apache.sp

浏览 2提问于2020-09-22得票数 6

回答已采纳

1回答

Spark Streaming清理RDD检查点目录

apache-spark、hdfs、spark-streaming

我们有来自kafka的spark streaming在HDFS服务器中创建检查点，但它没有得到清理，现在我们在HDFS中有数百万个检查点。有没有办法从spark中自动清除它？ Spark版本1.6 HDFS 2.70

浏览 8提问于2017-07-19得票数 3

回答已采纳

1回答

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

scala、apache-spark、apache-kafka、spark-structured-streaming

我正在为一个实时应用程序开发一个火花结构化流进程。我需要毫不拖延地阅读卡夫卡当前的信息。超过30秒的邮件与此项目无关。我正在阅读来自当前时间戳的大延迟的旧消息. (分钟)似乎火花结构化流并没有很好地使用startingOffsets属性的最新。我猜问题是我写的主题的HDFS检查点位置. 我不想读旧消息，只有重要的当前的！我测试了许多不同的配置，卡夫卡属性等等。但没有起作用..。下面是我的代码和相关的配置 (kafka.bootstrap.servers和kafka.ssl.*属性不在这里，而是存在的) 2.4.0-cdh6.3.3 火种版在readStream上使用的消费者属性

浏览 3提问于2021-10-01得票数 1

4回答

Kafka Storm HDFS/S3数据流

hdfs、apache-kafka、apache-storm

目前还不清楚你是否可以像在Flume中那样在Kafka中进行扇出(复制)。我想让Kafka将数据保存到HDFS或S3，并将该数据的副本发送到Storm进行实时处理。Storm聚合/分析的输出将存储在Cassandra中。我看到一些实现将所有数据从Kafka流向Storm，然后从Storm输出两个数据。但是，我希望消除Storm对原始数据存储的依赖。这个是可能的吗？您是否知道有类似这样的文档/示例/实现？另外，Kafka对S3存储有很好的支持吗？我看到了用于存储到HDFS的Camus --您只是通过cron运行此作业来不断地将数据从Kafka加载到HDFS吗？如果作业的第二个实例在前一个

浏览 2提问于2013-06-23得票数 3

回答已采纳

1回答

如何在消费者是火花的情况下衡量卡夫卡话题的滞后？

apache-spark、apache-kafka、kafka-consumer-api

我们有一个使用kafka作为输出的spark批处理应用程序。有没有办法监控Kafka在使用spark时的消费群体滞后？我们查看了spark文档，发现spark总是创建一个随机的groupId，并使用检查点目录来控制偏移量。你们有没有推荐一种方法或应用程序来衡量这个过程的滞后？我们找不到做这件事的方法。

浏览 16提问于2019-11-29得票数 1

回答已采纳

2回答

压缩批次9时IllegalStateException：_spark_metadata/0不存在

scala、apache-spark、apache-kafka、spark-structured-streaming

我们有使用Spark Structured实现的流应用程序，它试图从Kafka主题读取数据并将其写入HDFS位置。有时应用程序会失败，并出现异常： _spark_metadata/0 doesn't exist while compacting batch 9 java.lang.IllegalStateException: history/1523305060336/_spark_metadata/9.compact doesn't exist when compacting batch 19 (compactInterval: 10) 我们无法解决此问题。我找到的唯一解

浏览 0提问于2019-05-31得票数 6

1回答

flink检查点如何帮助故障恢复

apache-flink、flink-streaming

我的flink作业使用FlinkKafkaConsumer010从kafka consumer读取数据，并使用CustomBucketingSink接收到hdfs。我们有一系列的转换kafka -> flatmaps(2-3个转换) -> keyBy -> tumblingWindow(5 mins) -> Aggregation -> hdfsSink。我们有平均300万/分钟事件的kafka输入，高峰时间大约2000万/分钟的事件。检查点持续时间和两个检查点之间的最小停顿是3分钟，我使用的是FsStateBackend。以下是我的假设： Flink从kafk

浏览 0提问于2020-03-12得票数 0

4回答

来自Kafka的Spark流，并以Avro格式写入HDFS

scala、apache-spark、hdfs、spark-streaming、avro

我基本上是想使用Kafka中的数据，并将其写入HDFS。但是发生的情况是，它没有在hdfs中写入任何文件。它会创建空文件。也请指导我，如果我想在hdfs中写avro格式，我可以如何修改代码。为了简单起见，我写入本地C驱动器。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkContext import org.apache.spark.streaming.Seconds import o

浏览 4提问于2017-10-08得票数 0

2回答

Flink + Kafka:为什么我会丢失消息？

bigdata、apache-kafka、apache-flink

我已经写了一个非常简单的Flink流作业，从卡夫卡使用FlinkKafkaConsumer082的数据。 protected DataStream<String> getKafkaStream(StreamExecutionEnvironment env, String topic) { Properties result = new Properties(); result.put("bootstrap.servers", getBrokerUrl()); result.put("zookeeper.connect", ge

浏览 0提问于2015-11-03得票数 2

1回答

HdfsSink3Connector可以创建副本吗？

apache-kafka、hdfs、apache-kafka-connect、confluent-platform

根据，Sink连接器确保准确的一次交付. 在连接器任务线程失败的情况下，如何确保精确的一次传递？它是否删除了失败任务线程创建的文件？还是在HDFS中留下损坏的/部分文件？连接器使用预写日志来确保每条记录都写入HDFS一次。此外，连接器通过将Kafka偏移量信息编码到HDFS文件中来管理偏移量，以便在发生故障和任务重新启动时从上次提交的偏移量开始。请帮我处理这个。

浏览 3提问于2021-07-03得票数 0

1回答

火花结构化流检查点在生产中的使用

scala、apache-spark、apache-kafka、spark-structured-streaming、spark-kafka-integration

当使用Spark结构化流时，我难以理解检查点是如何工作的。我有一个火花处理程序，它生成一些事件，我将这些事件记录在一个Hive表中。对于这些事件，我收到卡夫卡流中的确认事件。我创造了一个新的火花过程将事件从Hive日志表中读取到DataFrame中使用Spark结构化流将这些事件与确认事件流连接起来将已连接的DataFrame写入HBase表。我在shell中测试了代码，它运行良好，低于伪代码(我使用的是Scala)。 val tableA = spark.table("tableA") val startingOffset = "ea

浏览 7提问于2020-07-08得票数 3

1回答

使用checkpointLocation偏移量从Kafka主题读取流的正确方法

apache-spark、apache-kafka、apache-spark-sql、spark-structured-streaming、spark-streaming-kafka

我正在尝试开发一个小型星火应用程序(使用Scala)来读取Kafka (合流)中的消息，并将它们写入Hive表。除了一个重要的特性--在应用程序重新启动时管理偏移量(submited)，一切都按预期工作。这让我很困惑。从我的代码中删除 def main(args: Array[String]): Unit = { val sparkSess = SparkSession .builder .appName("Kafka_to_Hive") .config("spark.sql.warehouse.dir", &

浏览 0提问于2020-10-22得票数 2

回答已采纳

2回答

如何获取Kafka消费者的偏移量？

apache-kafka、spark-streaming、kafka-consumer-api、kafka-producer-api

使用Kafka(v2.11-0.10.1.0)-spark-streaming(v-2.0.1-bin-hadoop2.7). 我有Kafka生产者和Spark-streaming消费者来生产和消费。一切正常，直到我停止消费者(大约2分钟)并重新开始。消费者启动并读取数据，绝对完美。但是，我迷失了2分钟的数据，其中消费者是关闭的。 Kafka consumer/server.properties保持不变。带有属性的Kafka生产者： Properties properties = new Properties(); properties.put

浏览 16提问于2017-01-18得票数 0

2回答

使用Spark Streaming定期保存计算结果？

apache-spark、spark-streaming、aggregation

我正在研究一个显示实时仪表板的要求，基于对输入数据计算的一些聚合。我刚刚开始探索Spark/Spark Streaming，我看到我们可以使用Spark Integration进行实时计算，并将其提供给UI Dashboard。我的问题是，如果在Spark Integration作业启动后的任何时候，它被停止/或崩溃，当它出现时，它将如何从上次处理的位置恢复。据我所知，Spark维护着一个内部状态，我们会为我们收到的每一个新数据更新这个状态。但是，当它重新启动时，这种状态不是已经消失了吗？我觉得我们可能必须定期保存运行的total/result，以便Spark在重新启动时能够通过从那里获

浏览 0提问于2017-08-01得票数 0

2回答

什么是“偏移从X改为0”错误与KafkaSource在星火结构化流？

apache-spark、apache-kafka、offset、spark-structured-streaming、spark-kafka-integration

在带有检查点的Spark结构化流应用程序中，我得到了“偏移量从X更改为0，一些数据可能被漏掉”的错误，但它似乎并没有真正造成任何问题。我想弄清楚这个错误到底意味着什么。我的设置如下。我让Kafka (0.10.1.0)在一个码头容器中运行，在/tmp/kafka日志上挂载了一个命名的卷，以便在重新启动之间保持日志。我在另一个码头容器中有一个Spark结构化流(2.1.1)应用程序。溪流消耗卡夫卡的数据。它们还在重新挂载到指定卷中的位置使用检查点，以确保在重新启动之间保留元数据。我使用一个实现接口的自定义接收器，这意味着我必须实现自己的已处理版本日志，以便当一切重新启动时，我

浏览 2提问于2017-05-09得票数 3

1回答

Spark结构流批量查询

apache-spark、pyspark、spark-structured-streaming

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。集群A(本地机器)获取了6条记录，集群B( TST集群-第一次运行)获取了1条记录。 df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers",

浏览 0提问于2020-10-24得票数 0

1回答

为什么在访问偏移量时，ClassCastException与重新分区的dstream一起发生流流失败？

apache-spark、apache-kafka、spark-streaming

在我的星火应用程序中，我以如下方式从一个Kafka主题创建了一个DStream： KafkaUtils .createDirectStream[String, Array[Byte], StringDecoder, DefaultDecoder, (String, Array[Byte])]( streamingContext, kafkaParams, offset.get, { message: MessageAndMetadata[String, Array[Byte]] => (message.key(), message.message()

浏览 3提问于2017-05-30得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Spark SQL中正确保存Kafka偏移量检查点，以便在join后重启应用程序

相关·内容

Kafka结构化流检查点

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

手动重置kafka偏移量时，Flink偏移量进入不一致状态

如何在Spark3.0结构化流中使用kafka.group.id和检查点来继续读取重新启动后停止运行的Kafka的内容？

Spark Streaming清理RDD检查点目录

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

Kafka Storm HDFS/S3数据流

如何在消费者是火花的情况下衡量卡夫卡话题的滞后？

压缩批次9时IllegalStateException：_spark_metadata/0不存在

flink检查点如何帮助故障恢复

来自Kafka的Spark流，并以Avro格式写入HDFS

Flink + Kafka:为什么我会丢失消息？

HdfsSink3Connector可以创建副本吗？

火花结构化流检查点在生产中的使用

使用checkpointLocation偏移量从Kafka主题读取流的正确方法

如何获取Kafka消费者的偏移量？

使用Spark Streaming定期保存计算结果？

什么是“偏移从X改为0”错误与KafkaSource在星火结构化流？

Spark结构流批量查询

为什么在访问偏移量时，ClassCastException与重新分区的dstream一起发生流流失败？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐