Spark Structured Streaming:以批量查询的方式读取kafka主题中的前N条消息

、

我有一个要求，我想要采样一个kafka主题(用于检查其数据质量等)，然后触发到它上的流作业。采样的参数之一可以是消息的数量。我引用了"http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html#creating-a-kafka-source-for-batch

浏览 32提问于2020-07-27得票数 1

1回答

Spark结构流批量查询

、、

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。集群A(本地机器)获取了6条记录，集群B( TST集群-第一次运

浏览 0提问于2020-10-24得票数 0

1回答

kafka max.poll.records不适用于火花流。

、、、

我的火花流版本是2.0，kafka版本是0.10.0.1，火花流-kafka-0-10_2.11。我使用直接的方式获得卡夫卡的记录，我现在想限制我在一批中获得的信息的最大数量。星星之火中的消费者数量是卡夫卡中的分区数?那么火花流中记录的最大数量是max.poll.records*consumers？

浏览 1提问于2018-09-27得票数 2

2回答

每批大小的火花流调整记录的数量不起作用？

、、

我的星火流应用程序是从卡夫卡读取使用DStream方法，我试图获得批量大小，以处理60,000条消息在10秒内。我所做的， spark.streaming.backpressure.enabled我有一个制作人，它会立即向这

浏览 0提问于2019-07-08得票数 2

回答已采纳

1回答

通过MongoDB使用Storm bolt或Spark-streaming丰富数据

、、、

我想创建一个Storm Spout，它从Apache Kafka的主题中读取数据，并将这些数据发送到连接到MongoDB的Storm bolt，并查询我从Kafka收集的消息以丰富数据。例如:我有一个personID (我是通过Kafka发来的消息得到的)，我想使用这个personID查询MongoDB中的个人

浏览 0提问于2018-04-18得票数 0

3回答

如何将Kafka主题数据加载到Python中的火花Dstream中

、、

我在Python中使用Spark3.0.0。我有一个卡夫卡的test_topic，正在生产从一个csv。下面的代码是从这个主题消耗到Spark中的，但是我在某个地方读到它需要在DStream中才能对它执行任何ML。pyspark.streaming import StreamingContext ssc = StreamingContext我是新来的，所以请指出任何愚蠢<

浏览 5提问于2020-08-06得票数 1

回答已采纳

1回答

“星火”卡夫卡题材的系列消费

、、、

// As I understand things, DataFrame ops must be run // on Workers as well as streaming，Spark和Kafka将自动协作，以确定要将多少个使用者线程部署到可用的工作节点上，这可能会导致对Kafka主题的消息进行并行处理。但如果我不想要多个平行的消费者呢？如果希望1和只有1的</

浏览 2提问于2016-08-15得票数 1

回答已采纳

3回答

如何获取Kafka* offset，用于结构化查询，实现手动、可靠的offset管理？*

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量存储到事务型DB中，如

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

apache火花流- kafka* -读取旧消息*

、、、

我正在改变我的groupID和consumerID，以确保动物园管理员不只是提供消息，它知道我的程序之前见过。import org.apache.spark.<em

浏览 2提问于2014-12-05得票数 6

回答已采纳

3回答

从Kafka中读取并写入parquet中的hdfs

、、、、

我是BigData生态系统的新手，也算是入门了。感谢您的帮助。

浏览 1提问于2017-08-23得票数 12

回答已采纳

1回答

Spark Streaming Kafka中的DStream过滤和偏移管理

、、

我目前正在编写一个Spark流媒体应用程序，它从Kafka读取数据，并在应用一些转换之前尝试解码它。内部完成的，这意味着我将只提交成功的记录。要提交失败的记录，我可以将所有内容移动到foreachRDD循环中： .stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)然而，我想知道

浏览 0提问于2017-10-31得票数 5

6回答

Spark structured streaming kafka转换不带模式的JSON (推断模式)

、、、

我读到Spark Structured Streaming不支持将Kafka消息读取为JSON的模式推断。有没有一种方法可以像Spark Streaming一样检索模式：dataFrame.printschema

浏览 1提问于2018-01-21得票数 13

1回答

org.apache.spark.sql.kafka010.KafkaDataConsumer$：PySpark :无法初始化类java.lang.NoClassDefFoundError

、、、、

我试图从卡夫卡主题中获取信息，并将其打印在控制台中。能够通过读取器成功地获取消息，但当我试图通过编写器在控制台中打印消息时，会出现以下错误， .readStream\

浏览 2提问于2020-06-13得票数 0

3回答

我正在评估Google Pub/Sub和Kafka。有什么不同？

、

我在kafka上的工作并不多，但我想在GCE中构建数据管道。所以我们想知道Kafka vs PUB/Sub。基本上，我想知道在Kafka和Pub/sub中是如何维护消息一致性、消息可用性和消息可靠性的谢谢

浏览 0提问于2016-07-25得票数 101

1回答

从json文件中逐块处理rdd并将其发布到Kafka主题。

、、

我是斯派克和斯卡拉的新手。我需要处理来自s3位置的json文件的数量。这些数据基本上是批处理数据，这些数据将在稍后的某个时候被保留以进行重新处理。现在，我的星火作业应该以这样的方式处理这些文件，它应该选择5条原始的json记录，并且应该向Kafka主题发送一条信息。只选择5条记录的原因是卡夫卡主题是同时处理同一主题上的实时和<e

浏览 1提问于2017-05-19得票数 0

1回答

如何从Kafka中读取JSON数据，并使用Spark结构流存储到HDFS？

、、

我正在尝试从Kafka读取JSON消息，并使用spark structured将它们存储在HDFS中。我遵循了示例，当我的代码如下所示时： .read \ .option("kafka.bootstrap.servers", "partition":0,"offset":34630

浏览 43提问于2018-07-25得票数 1

3回答

将值从火花保存到卡桑德拉

、、、、

我需要存储卡夫卡->火花流->卡桑德拉的值。 map1={'spark-kafka':1}#gives an error -> TypeEr

浏览 3提问于2016-01-25得票数 0

回答已采纳

2回答

纱线群集模式上的Spark流作业卡在接受模式下，然后失败并出现超时异常

、

我正在运行一个spark streaming应用程序，它只需从Kafka主题读取消息，丰富它们，然后在另一个kafka主题中写入丰富的消息。当我以集群模式提交应用程序时，它会给我以下消息： 18/01/10 12:13:34 INFO Client: Submitting application application_1515582681419application_15155

浏览 13提问于2018-01-10得票数 0

1回答

批用户中使用@KafkaListener处理错误的提交

、、

假设服务出现时，主题中已经有100万条消息可供服务使用，我对此场景有以下问题，因为我找不到关于批量侦听的详细说明的文档：侦听器将读取列表中的500条消息。所述配置是否意味着我将有16个使用者，每个使用者都可以从同一个主题并行读取500条消息？我理解，在这种情况下，我必须至少有16个分区才能使用所有的使用者，否则我将留给那些什么都不做的消费者？因

浏览 3提问于2020-06-22得票数 1

回答已采纳

7回答

检查Spark流作业是否挂起的最佳方法

、、、

我有Spark streaming应用程序，它基本上从Kafka获得触发消息，这启动了批处理，这可能需要2个小时。有一些事件，其中一些作业无限期地挂起，并且没有在通常的时间内完成，目前我们无法在不手动检查Spark UI的情况下确定作业的状态。我想知道当前正在运行的spark作业是否挂起的方法。我知道我可以使用驱动程序和执行器的度量标准。如果我要选择最重要的一个，

浏览 6提问于2018-10-18得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark结构流批量查询

kafka max.poll.records不适用于火花流。

每批大小的火花流调整记录的数量不起作用？

通过MongoDB使用Storm bolt或Spark-streaming丰富数据

如何将Kafka主题数据加载到Python中的火花Dstream中

“星火”卡夫卡题材的系列消费

如何获取Kafka* offset，用于结构化查询，实现手动、可靠的offset管理？*

apache火花流- kafka* -读取旧消息*

从Kafka中读取并写入parquet中的hdfs

Spark Streaming Kafka中的DStream过滤和偏移管理

Spark structured streaming kafka转换不带模式的JSON (推断模式)

org.apache.spark.sql.kafka010.KafkaDataConsumer$：PySpark :无法初始化类java.lang.NoClassDefFoundError

我正在评估Google Pub/Sub和Kafka。有什么不同？

从json文件中逐块处理rdd并将其发布到Kafka主题。

如何从Kafka中读取JSON数据，并使用Spark结构流存储到HDFS？

将值从火花保存到卡桑德拉

纱线群集模式上的Spark流作业卡在接受模式下，然后失败并出现超时异常

批用户中使用@KafkaListener处理错误的提交

检查Spark流作业是否挂起的最佳方法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐