Spark Structured Streaming with Kafka source，在查询运行时更改主题分区的数量

Spark Structured Streaming是Apache Spark的一个模块，用于处理实时数据流。它提供了一种简单且高级的API，可以处理来自各种数据源的实时数据，并将其转换为有意义的结果。

Kafka是一个分布式流处理平台，它具有高吞吐量、可扩展性和容错性。它允许将数据流发布到多个主题中的多个分区，并且可以根据需求进行动态调整。

在Spark Structured Streaming中使用Kafka作为数据源，可以通过以下步骤进行配置和操作：

导入所需的库和类：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.Trigger

创建SparkSession对象：

val spark = SparkSession.builder
  .appName("Spark Structured Streaming with Kafka source")
  .master("local[*]")
  .getOrCreate()

读取Kafka数据源：

val kafkaDF = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "topic_name")
  .load()

其中，kafka.bootstrap.servers指定了Kafka集群的地址，subscribe指定了要订阅的主题名称。

对数据进行处理和转换：

val transformedDF = kafkaDF.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
  // 进行其他转换操作

可以根据实际需求对数据进行各种转换操作，例如选择特定的列、更改数据类型等。

将处理后的数据写入目标位置或进行其他操作：

val query = transformedDF.writeStream
  .outputMode("append")
  .format("console")
  .trigger(Trigger.ProcessingTime("10 seconds"))
  .start()

query.awaitTermination()

在上述代码中，使用writeStream将数据写入控制台，可以根据需求将数据写入文件、数据库等。

至于在查询运行时更改主题分区的数量，Spark Structured Streaming提供了动态调整分区的功能。可以使用repartition方法来更改分区数量，例如：

val repartitionedDF = transformedDF.repartition(5)

上述代码将数据集重新分区为5个分区。可以根据实际需求在查询运行时动态更改分区数量。

总结： Spark Structured Streaming与Kafka结合使用可以实现实时数据处理和转换。通过配置Kafka作为数据源，可以读取实时数据，并使用Spark的强大功能进行处理和转换。在查询运行时，可以使用repartition方法动态调整主题分区的数量，以满足实时数据处理的需求。

腾讯云相关产品和产品介绍链接地址：

多个Kafka主题多个阅读流的Spark结构化流式阅读

、、

考虑到来自两个主题的数据在一点连接并最终发送到Kafka接收器，这是从多个主题读取的最佳方式 val df = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", servers) .option("subscribe", "t1,t2") vs val df1 = spark .readStream .format("kafka") .option("kafka.bootstrap.ser

浏览 12提问于2020-04-13得票数 0

回答已采纳

1回答

连接spark structured streaming + kafka出错

、、、、

我正在尝试连接我的结构化流式spark 2.4.5与kafka，但所有的时间，我尝试这个数据源提供程序出现错误。遵循我的scala代码和sbt构建： import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.streaming.Trigger object streaming_app_demo { def main(args: Array[String]): Unit = {

浏览 86提问于2020-05-04得票数 0

回答已采纳

1回答

星火结构流+ Kafka集成: MicroBatchExecution PartitionOffsets错误

、、、

使用下面的scala代码，我使用Spark结构化流分别处理来自Apache的和发送到Apache的数据流。我可以使用kafka源成功地读取数据流，但是，在试图将流写入Kafka接收器时，我得到了以下错误： ERROR MicroBatchExecution:91 - Query [id = 234750ca-d416-4182-b3cc-4e2c1f922724, runId = 4c4b0931-9876-456f-8d56-752623803332] terminated with error java.lang.IllegalArgumentException: Expected e.

浏览 0提问于2018-10-29得票数 4

回答已采纳

1回答

Spark-Streaming挂起，kafka最早开始偏移(Kafka 2，spark 2.4.3)

、、、

我对Spark-Streaming和Kafka有意见。在运行示例程序从Kafka主题消费并将微批结果输出到终端时，当我设置选项时，我的作业似乎挂起了： df.option("startingOffsets", "earliest") 从最新的偏移量开始工作很好，结果随着每个微批次的流过而打印到终端。我在想，也许这是一个资源问题--我正在尝试从一个有相当多数据的主题中阅读。但是，我似乎没有内存/cpu问题(使用本地*集群运行此作业)。这项工作似乎从来没有真正开始过，而只是悬而未决： 19/09/17 15:21:37 INFO Metadata: Cluste

浏览 21提问于2019-09-18得票数 4

回答已采纳

4回答

怎么买云服务器？

、

请描述您的问题标题：腾讯云云产品新购特惠，五折上云！地址：https://cloud.tencent.com/act/first_purchase?utm_source=portal&utm_medium=cdb&utm_campaign=firstpurchase&utm_term=0110 浏览器信息 Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36

浏览 487提问于2018-03-12

4回答

数据比较多，有什么好点的存储方案吗？

、

贵州地区，给公司做类似企业网盘的东西，存储数据大概在6~7T左右，有没有好点的存储方案呢？我看腾讯云这边有COS、CFS等，我是从网站直接读取数据，推荐那个？有没有什么试用渠道呢？

浏览 967提问于2017-09-15

1回答

如何在写入HDFS - hive时控制Spark streaming中的行数和/或输出文件大小？

、、、、

使用spark streaming从Kafka读取和处理消息，并将消息写入HDFS - Hive。因为我希望避免创建许多对文件系统造成垃圾邮件的小文件，所以我想知道是否有方法可以确保最小的文件大小，和/或是否有能力在文件中强制最小数量的输出行，但超时除外。谢谢。

浏览 0提问于2018-05-08得票数 1

2回答

Spark结构流中的拼图数据和分区问题

、、

我正在使用Spark Structured streaming；我的DataFrame具有以下模式 root |-- data: struct (nullable = true) | |-- zoneId: string (nullable = true) | |-- deviceId: string (nullable = true) | |-- timeSinceLast: long (nullable = true) |-- date: date (nullable = true) 如何使用Parquet格式编写writeStream并写入数据(包

浏览 0提问于2018-03-04得票数 2

1回答

在卡夫卡星火流的情况下，spark.streaming.kafka.maxRatePerPartition和spark.streaming.backpressure.enabled有什么关系？

、、、、

我正在尝试将数据写入一个卡夫卡主题后，阅读了一个蜂巢表如下。 write_kafka_data.py: read_df = spark.sql("select * from db.table where some_column in ('ASIA', 'Europe')") final_df = read_df.select(F.to_json(F.struct(F.col("*"))).alias("value")) final_df.write.format("kafka")\

浏览 0提问于2021-09-13得票数 4

回答已采纳

2回答

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

、

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

1回答

如何使用partitionBy调优保存操作

、、、、

我需要将数据集数据划分为6列: region/year/month/day/id/quadkey，其中在顶层我只有二进制区域状态，而在最底层实际上是它进入许多分区的位置。假设我们有两个区域/通常是一年/通常是一个月/3-4天/100-150个I/ 50-200个四键，当我执行这个操作时，我得到了非常不平衡的随机操作，有时执行器会因为超出内存限制而失败。此外，我从History UI中注意到，hat阶段的一些任务非常大(约15 1Gb)，而其他任务则小得多(约1 1Gb)。我试着去玩 sqlContext.setConf("spark.sql.shuffle.partitions

浏览 0提问于2019-04-11得票数 1

2回答

2具有相同消费群id的火花流作业

、、

我正在尝试对消费者群体进行实验。这是我的代码片段 public final class App { private static final int INTERVAL = 5000; public static void main(String[] args) throws Exception { Map<String, Object> kafkaParams = new HashMap<>(); kafkaParams.put("bootstrap.servers", "xxx:9092"); kafka

浏览 0提问于2018-05-27得票数 2

回答已采纳

3回答

如何将数据集写入Kafka主题？

、、、

我使用的是Spark 2.1.0和Kafka 0.9.0。我正在尝试将批处理spark作业的输出推送到kafka。该作业应该每小时运行一次，但不是以流式方式运行。在网上寻找答案时，我只能找到kafka与Spark streaming的集成，而没有找到与批处理作业的集成。有没有人知道这样的事情是否可行？谢谢更新：正如user8371915提到的，我试图遵循中所做的事情。我用的是spark shell： spark-shell --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.1.0 下面是我尝试过的简单代码： val d

浏览 3提问于2018-04-06得票数 6

1回答

从火花流数据提取数据

、、、、

我刚开始玩星火流。我从卡夫卡那里得到了一个类似于下面的事件。我必须从dataframe中提取路径，从路径中读取数据并将其写入目的地。 {"path":["/tmp/file_path/file.parquet"],"format":"parquet","entries":null} 知道如何提取路径并格式化火花流数据吗？这就是我想要达到的目标， val df: DataFrame = spark.readStream.format("kafka"). option("kafka.

浏览 5提问于2022-11-14得票数 0

1回答

结构化流式传输性能和清除地块文件

、、

我正在使用Spark structured streaming从Kafka获取流数据。我需要聚合各种指标(比方说6个指标)，并编写为拼图文件。我确实看到指标1和指标2之间存在巨大的延迟。例如，如果指标1最近更新，则指标2是一小时前的数据。如何提高此性能才能并行工作？另外，我还编写了另一个应用程序应该读取的拼图文件。如何不断清除旧的实木地板信息？我应该有一个不同的应用程序吗？ Dataset<String> lines_topic = spark.readStream().format("kafka").option("kafka.bootstrap.ser

浏览 3提问于2018-01-06得票数 1

回答已采纳

3回答

为什么不单独使用spark-streaming

、、、

我没有太多使用Kafka/ Spark-Streaming的经验，但我读过很多关于组合在为分析/仪表板构建实时系统方面有多棒的文章。有人能给我解释一下为什么spark-streaming不能单独完成吗？换句话说，为什么Kafka在数据源和spark-streaming之间？谢谢

浏览 1提问于2016-01-11得票数 1

1回答

Row.key和row.value不工作于火花结构流代码

、、、

下面的代码给出了错误的row.key和row.value，同时在火花结构流中读取生产者的AVRO格式。请帮助解决问题。我收到错误，因为row.key符号和row.value找不到。我想读取火花中的数据，并将其写入hadoop系统中的cassandra，我认为这是在火花结构流中读取AVRO源数据的唯一方法。请让我知道，如果有任何其他方式阅读卡夫卡的数据，从生产者的阿夫罗格式。 import io.confluent.kafka.schemaregistry.client.CachedSchemaRegistryClient import org.apache.spark.sql.executio

浏览 0提问于2018-10-09得票数 1

回答已采纳

1回答

在Spark Structured中反序列化自引用协议

、、、、

我有一个自引用的protobuf模式： message A { uint64 timestamp = 1; repeated A fields = 2; } 我正在使用scalaPB生成相应的Scala类，然后尝试解码从Kafka流消费的消息，遵循以下步骤： def main(args : Array[String]) { val spark = SparkSession.builder. master("local") .appName("spark session example") .getOrCreate()

浏览 14提问于2018-07-18得票数 3

回答已采纳

1回答

如何将from_json与Kafka connect 0.10和Spark Structured Streaming一起使用？

、、、、

我试图复制Databricks中的示例，并将其应用于Kafka和spark structured streaming的新连接器，但是我无法使用Spark中的开箱即用方法正确解析JSON ... 注:主题以JSON格式写入Kafka。 val ds1 = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", IP + ":9092") .option("zookeeper.co

浏览 9提问于2017-02-28得票数 13

回答已采纳

1回答

kafka spark连接时出错

、、

我试着把卡夫卡和斯帕克联系起来。我使用kafka_2.11-0.11.0.1和spark 2.2.0。我将jar文件包括为： kafka_2.11-0.11.0.1 kafka-客户端-0.11.0.1 spark-streaming_2.11-2.2.0 spark-streaming-kafka_2.11-2.2.0 下面是我的代码： import org.apache.spark._ import org.apache.spark.streaming.dstream._ import org.apache.spark.streaming.kafka._ import org.apache

浏览 0提问于2017-11-03得票数 1

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark Structured Streaming with Kafka source，在查询运行时更改主题分区的数量

相关·内容

多个Kafka主题多个阅读流的Spark结构化流式阅读

连接spark structured streaming + kafka出错

星火结构流+ Kafka集成: MicroBatchExecution PartitionOffsets错误

Spark-Streaming挂起，kafka最早开始偏移(Kafka 2，spark 2.4.3)

怎么买云服务器？

数据比较多，有什么好点的存储方案吗？

如何在写入HDFS - hive时控制Spark streaming中的行数和/或输出文件大小？

Spark结构流中的拼图数据和分区问题

在卡夫卡星火流的情况下，spark.streaming.kafka.maxRatePerPartition和spark.streaming.backpressure.enabled有什么关系？

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

如何使用partitionBy调优保存操作

2具有相同消费群id的火花流作业

如何将数据集写入Kafka主题？

从火花流数据提取数据

结构化流式传输性能和清除地块文件

为什么不单独使用spark-streaming

Row.key和row.value不工作于火花结构流代码

在Spark Structured中反序列化自引用协议

如何将from_json与Kafka connect 0.10和Spark Structured Streaming一起使用？

kafka spark连接时出错

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐