Spark Structured Streaming不会从Kafka中拉出最后一批

apache-spark、spark-structured-streaming、spark-streaming-kafka

我注意到，如果在此之后没有批处理，SSS不会处理等待批处理。我所看到的是，Spark在将Parquet写入HDFS时，必须始终在Kafka上留下一批等待消费。显然，这与Spark在每一批之后清理的方式有关。在以下位置有一个JIRA： https://issues.apache.org/jira/browse/SPARK-24156 这意味着它已经在2.4.0中解决了，但我的代码使用的是2.4.2，但是我

浏览 20提问于2020-07-15得票数 1

2回答

电火花外壳中的外部包(jars) --如何

apache-spark、pyspark

将外部包(jars)包含在火花放电外壳中的正确方法是什么？我想通过spark-sql-kafka库从卡夫卡中通过火花阅读，如下所述：。到目前为止，我读到的资料： - [Structured streaming kafka integration](https://spark.apache.org/docs/latest

浏览 0提问于2019-12-11得票数 0

2回答

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

apache-spark、apache-spark-sql

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

1回答

Spark-Streaming挂起，kafka最早开始偏移(Kafka 2，spark 2.4.3)

apache-spark、apache-kafka、kafka-consumer-api、spark-structured-streaming

我对Spark-Streaming和Kafka有意见。在运行示例程序从Kafka主题消费并将微批结果输出到终端时，当我设置选项时，我的作业似乎挂起了： df.option("startingOffsets", "earliest") 从最新的偏移量开始工作很好("spark-test") val topic = "topic.with.alotta.data

浏览 21提问于2019-09-18得票数 4

回答已采纳

1回答

Spark structured异步批量阻塞

apache-spark、spark-structured-streaming

我正在使用Apache Spark structured streaming来阅读Kafka。有时，由于繁重的写IO操作，我的微批处理时间比指定的时间要长。我想知道是否有一个选择是在第一批完成之前开始下一批，但让第二批被第一批阻止？我的意思是，如果第一次花了7秒，批次设置为5秒，那么在第五秒开始第二次批次。但是如果第二个批处理完成，就会阻塞它，这样它就不会在前一个批处理之前写入(因为希望保持正确的消息顺序)。

浏览 13提问于2021-11-07得票数 0

回答已采纳

1回答

如何使用Spark-streaming进行实时日志分析？？(我附加架构镜像)

apache-spark、pyspark、spark-streaming

Spark streaming应用程序实时接收来自大量IoT设备的数据。但它们都是少量的数据。整体流程看起来像是-> Iot -> Kafka(1个主题/所有数据) ->火花流(过滤错误日志) -> DB(保存) ->警报屏幕有没有使用spark或python进行实时日志分析的好方法？

浏览 13提问于2020-11-19得票数 0

回答已采纳

1回答

Kafka producer -发送消息列表

apache-spark、apache-kafka

我需要发送几批消息，并确保每批中的所有消息都在同一批中一起到达消费者。我读过类似的问题，但我仍然对正确的方法感到困惑。生产者是否应该将所有消息(每批)放在一个列表中，并将该列表发送给kafka？

浏览 3提问于2018-07-09得票数 0

1回答

Spark structured streaming无权访问组

scala、apache-spark、apache-kafka、spark-streaming、spark-structured-streaming

我正在尝试通过spark structured streaming从Kafka中读取数据。但是，在Spark 2.4.0.中，您不能为流设置组id (参见How to set group.id for consumer group in kafka data source in StructuredStreaming?)。然而，由于没有设置，spark只是生成组Id，而我停留在Gr

浏览 166提问于2019-12-10得票数 1

回答已采纳

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

scala、apache-kafka、parquet、spark-structured-streaming

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html我必须将它们移动到其他目录，并确保hive中的查询正常工作。但我不确定是否会因为移动而导致数据丢失。我知道<

浏览 20提问于2019-05-25得票数 0

1回答

从Kafka回放偏移Spark结构化流

apache-spark、apache-kafka、kafka-consumer-api、spark-structured-streaming

我正在使用spark structured streaming (2.2.1)来消费来自Kafka (0.10)的主题。val df = spark .format("kafka") .option("kafka.bootstrap.servers", fromKafkaServers然而，即使我从HDFS目录中删除了所有检查点数据并重

浏览 1提问于2018-04-18得票数 0

1回答

从Kafka回放和重新使用结构化流中的偏移量

apache-spark、apache-kafka、spark-structured-streaming、spark-kafka-integration

有没有一种方法可以在结构化流媒体中倒回偏移量？我使用的是Spark版本3，我已经将我的startingoffset配置为最早，之后的每次重启都会从检查点目录中选取偏移值。例如: Kafka中当前的偏移量为1000，检查点目录中承诺的偏移量为900。我想再次使用800的偏移量。我如何才能做到这一点？如果我使用下面的命令取消当前运行并重置使用者组的偏移值。kafka-consumer-groups.sh --bootstrap-server <broker host

浏览 27提问于2021-03-15得票数 0

回答已采纳

2回答

星火结构流-将静态数据集与流数据集连接起来

scala、apache-spark、apache-spark-sql、apache-spark-dataset、spark-structured-streaming

我使用Spark structured streaming处理从Kafka读取的记录。以下是我想要达到的目标： (i) Groups records by their timestamp into 5-minute windows但是，它们都抛出了运行时异常，抱怨streaming</e

浏览 2提问于2017-10-02得票数 15

1回答

重新启动火花结构化流作业消耗数百万卡夫卡消息和死亡

apache-spark、pyspark、spark-streaming、spark-structured-streaming

我们有一个在Spark2.3.3上运行的星火流应用程序 kafka_stream = spark \ .format("kafka() spark.streaming.kafka.maxRatePerPartition=1000，spark.streaming.backpressure.enabled=true，<

浏览 1提问于2019-04-02得票数 10

回答已采纳

1回答

Spark结构化流使用多个查询的用例

scala、apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming

我有一个要求，从多个卡夫卡topicsAvro的流媒体，并把他们在格林梅利与小修改的有效载荷。val query1 = df.writeStream.start() spark.streams.awaitAnyTermination

浏览 2提问于2020-11-06得票数 1

回答已采纳

1回答

kafka接收器连接器中无效JSON的错误处理

mongodb、error-handling、apache-kafka、apache-kafka-connect

我有一个mongodb的接收器连接器，它从主题中提取json并将其放入mongoDB集合中。但是，当我从生产者向该主题发送无效的JSON (例如，带有无效的特殊字符") => {"id":1,"name":"\"}时，连接器停止。connection.uri": "mongodb://****:27017", "collect

浏览 0提问于2020-02-11得票数 0

1回答

如何避免火花流中批量排队

apache-spark、apache-kafka、spark-streaming、spark-kafka-integration

我有直接流的火花流，我使用下面的配置 spark.streaming.kafka.maxRatePerPartition 42 我看到，最初的几批记录正确地消耗了151200张唱片，尽管卡夫卡有大量的唱片可供消费，但在后来的批

浏览 2提问于2021-03-16得票数 1

回答已采纳

1回答

是否有可能让火花结构化流(更新模式)写入数据库？

apache-spark、apache-kafka、spark-structured-streaming

我使用spark(3.0.0)结构化流从kafka读取主题。下面的火花官方指南部分没有提到DB sink，它也不支持为update mode：写到files 目前，我将其输出到console，并希望将数据存储在文件或DB中。stackoverflow.com/questions/62738727/how-to-deduplicate-and-keep-latest-based-on-timestamp-field-in-spark-structured- h

浏览 5提问于2020-09-16得票数 0

1回答

如何将from_json与Kafka* connect 0.10和Spark Structured Streaming一起使用？*

scala、apache-spark、apache-kafka、apache-kafka-connect、spark-structured-streaming

我试图复制Databricks中的示例，并将其应用于Kafka和spark structured streaming的新连接器，但是我无法使用Spark中的开箱即用方法正确解析JSON ...注:主题以JSON格式写入Kafka。val ds1 = spark .format("kafka") .option(&q

浏览 9提问于2017-02-28得票数 13

回答已采纳

2回答

Spark Structured Streaming如何确定事件是否迟到？

apache-spark

我通读了spark structured streaming文档，我想知道spark structured是如何确定事件已经迟到的？它是否将事件时间与处理时间进行比较？1)这个处理时间是从哪里来的？由于它的流，它是否假设有人可能正在使用具有处理时间戳的上游源，或者spark添加了处理时间戳字段？例如，当阅读来自Kafka的消息时，我们会这样做 Dataset<Row> kafkadf = spark.

浏览 0提问于2018-02-26得票数 4

1回答

如何找到spark结构的流媒体应用的消费者组id？

apache-spark、spark-structured-streaming

在spark streaming编程中，我们可以通过设置以下配置来显式分配kafka消费者组id： val kafkaParams = Map[String, Object]( ...= KafkaUtils.createRDD[String, String](sparkContext, kafkaParams, offsetRanges, PreferConsistent) 在sparkstructured streaming中，禁止设置自己的消

浏览 11提问于2020-03-31得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

电火花外壳中的外部包(jars) --如何

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

Spark-Streaming挂起，kafka最早开始偏移(Kafka 2，spark 2.4.3)

Spark structured异步批量阻塞

如何使用Spark-streaming进行实时日志分析？？(我附加架构镜像)

Kafka producer -发送消息列表

Spark structured streaming无权访问组

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

从Kafka回放偏移Spark结构化流

从Kafka回放和重新使用结构化流中的偏移量

星火结构流-将静态数据集与流数据集连接起来

重新启动火花结构化流作业消耗数百万卡夫卡消息和死亡

Spark结构化流使用多个查询的用例

kafka接收器连接器中无效JSON的错误处理

如何避免火花流中批量排队

是否有可能让火花结构化流(更新模式)写入数据库？

如何将from_json与Kafka* connect 0.10和Spark Structured Streaming一起使用？*

Spark Structured Streaming如何确定事件是否迟到？

如何找到spark结构的流媒体应用的消费者组id？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐