读取Spark Structured Streaming中Kafka消息中的换行符分隔的json_如何在Spark structured streaming中读取特定的Kafka分区_Spark Structured Streaming无法从docker内的kafka读取 - 腾讯云开发者社区

apache-kafka、replication

我想使用Apache Spark Structured Streaming和Kafka，Spark Structured Streaming支持Kafka 0.10及更高版本，我的Kafka集群使用kafka版本0.8.2.1。我想将当前kafka 0.8.2.1集群中的一些主题复制到基于2.2.0的新Kafka集群中。为此，我尝试在Kafka 2.2.0集群上使用kafka-console-consumer来监听来自kafka集群0.8.2.1的消息，并将kafka-console-consumer的结果通过管道传输到kafka 2.2.0集群上的kafka-console-produc

浏览 17提问于2019-05-23得票数 1

6回答

Spark structured streaming kafka转换不带模式的JSON (推断模式)

apache-spark、apache-kafka、schema、spark-structured-streaming

我读到Spark Structured Streaming不支持将Kafka消息读取为JSON的模式推断。有没有一种方法可以像Spark Streaming一样检索模式： val dataFrame = spark.read.json(rdd.map(_.value())) dataFrame.printschema

浏览 1提问于2018-01-21得票数 13

2回答

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

apache-spark、apache-spark-sql

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

1回答

与RabbitMQ的Spark结构化流媒体集成

apache-spark、rabbitmq、spark-streaming

我想使用Spark structured来聚合从RabbitMQ消费的数据。我知道与apache kafka有官方的spark结构化流媒体集成，我想知道是否也存在与RabbitMQ的集成？由于我不能切换现有的消息传递系统(RabbitMQ)，我想使用kafka-connect在消息传递系统(Rabbit to kafka)之间移动数据，然后使用Spark structured streaming。有人知道更好的解决方案吗？

浏览 0提问于2018-04-16得票数 0

1回答

卡夫卡的pySpark结构化流不输出到控制台进行调试。

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

下面是我的密码。我尝试了许多不同的选择变体，但应用程序运行，但没有显示消息，这些信息正在编写的每一秒。我有一个使用pprint()的星火流示例，它确认kafka实际上每秒钟都会收到消息。Kafka中的消息是JSON格式的，请参见字段/列标签的架构： from pyspark.sql.functions import * from pyspark.sql.types import * import statistics KAFKA_TOPIC = "vehicle_events_fast_testdata" KAFKA_SERVER = "10.2.0.6:2181&

浏览 6提问于2019-12-31得票数 4

回答已采纳

1回答

GCP Dataproc -在提交无法工作的作业时添加多个包(kafka，mongodb)

apache-spark、google-cloud-platform、dependency-management、spark-structured-streaming、dataproc

我正在尝试在提交dataproc pyspark作业时添加kafka & mongoDB包，但是这是失败的。到目前为止，我只使用了kafka包，这很好，但是当我尝试在下面的命令中添加mongoDB包时，会出现错误命令正常工作，只使用Kafka包。 gcloud dataproc jobs submit pyspark main.py \ --cluster versa-structured-stream \ --properties spark.jars.packages=org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.2, s

浏览 9提问于2022-05-24得票数 0

回答已采纳

1回答

读取Spark Structured Streaming中Kafka消息中的换行符分隔的json

apache-spark、pyspark、apache-kafka、spark-structured-streaming、ndjson

我开发了一个Python Kafka生成器，它将多个json记录作为nd-json二进制字符串发送到Kafka主题。然后我试着用PySpark阅读Spark Structured中的这些消息，如下所示： events_df = select(from_json(col("value").cast("string"), schema).alias("value")) 但此代码仅适用于单个json文档。如果该值包含多个记录作为换行符分隔的json，则Spark无法正确解码它。我不想为每个单独的事件发送kafka消息。我如何才能做到这一点？

浏览 61提问于2021-02-02得票数 0

回答已采纳

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

scala、apache-kafka、parquet、spark-structured-streaming

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html 然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图文件(长度太小: 4)或[.parquet不是拼图文件。期望的幻数在尾部80，65，82，49，但在读取它们时发现56，52，53，51]。我必须将它们移动到其他目录，并确保hi

浏览 20提问于2019-05-25得票数 0

1回答

如何将kafka主题中的json字符串读入pyspark dataframe？

python、apache-spark、pyspark、apache-kafka

我正在尝试将json消息从Kafka主题读取到PySpark数据帧中。我的第一个想法是： consumer = KafkaConsumer(TOPIC_NAME, consumer_timeout_ms=9000, bootstrap_servers=BOOTSTRAP_SERVER, auto_offset_reset='earliest', en

浏览 2提问于2021-06-04得票数 0

1回答

连接spark structured streaming + kafka出错

scala、apache-spark、apache-kafka、spark-streaming、spark-structured-streaming

我正在尝试连接我的结构化流式spark 2.4.5与kafka，但所有的时间，我尝试这个数据源提供程序出现错误。遵循我的scala代码和sbt构建： import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.streaming.Trigger object streaming_app_demo { def main(args: Array[String]): Unit = {

浏览 86提问于2020-05-04得票数 0

回答已采纳

1回答

可以在没有HDFS的情况下使用Spark Structured吗？

spark-structured-streaming

我经常使用HDFS和Kafka，我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming，我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么，有没有可能在没有HDFS的情况下使用spark structured？奇怪的是，我们只能在Kafka中将HDFS用于流数据。或者，有没有可能告诉斯帕克忘记ChekpPointing并在程序中管理它？ Spark 2.4.7 谢谢

浏览 39提问于2021-05-07得票数 2

1回答

如何将from_json与Kafka connect 0.10和Spark Structured Streaming一起使用？

scala、apache-spark、apache-kafka、apache-kafka-connect、spark-structured-streaming

我试图复制Databricks中的示例，并将其应用于Kafka和spark structured streaming的新连接器，但是我无法使用Spark中的开箱即用方法正确解析JSON ... 注:主题以JSON格式写入Kafka。 val ds1 = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", IP + ":9092") .option("zookeeper.co

浏览 9提问于2017-02-28得票数 13

回答已采纳

1回答

在spark 2.4.X中获取kafka头文件

apache-spark、spark-structured-streaming、spark-streaming-kafka

如何在Spark Structured Streaming中获取Kafka header字段(在Kafka 0.11+中引入)？我看到headers实现是在Spark 3.0中添加的，但在2.4.5中没有。我看到默认情况下spark-sql-kafka-0-10使用的是kafka-client 2.0。如果不能使用Spark阅读Kafka的标题，那么你能推荐其他的替代方案吗？

浏览 0提问于2020-03-09得票数 0

1回答

Spark structured streaming无权访问组

scala、apache-spark、apache-kafka、spark-streaming、spark-structured-streaming

我正在尝试通过spark structured streaming从Kafka中读取数据。但是，在Spark 2.4.0.中，您不能为流设置组id (参见How to set group.id for consumer group in kafka data source in Structured Streaming?)。然而，由于没有设置，spark只是生成组Id，而我停留在GroupAuthorizationException： 19/12/10 15:15:00 ERROR streaming.MicroBatchExecution: Query [id = 747090ff-12

浏览 166提问于2019-12-10得票数 1

回答已采纳

1回答

如何解析pyspark的DataStreamReader中的json字符串列并创建数据帧

pyspark、pyspark-sql、spark-structured-streaming、spark-streaming-kafka

我正在阅读来自kafka主题的消息 messageDFRaw = spark.readStream\ .format("kafka")\ .option("kafka.bootstrap.servers", "localhost:9092")\ .option("subscribe", "test-message")\ .load() messageDF

浏览 9提问于2019-02-15得票数 0

回答已采纳

1回答

在Spark structured streaming中使用来自Kafka的Avro事件

apache-spark、avro、spark-structured-streaming

我设计了一个Nifi流，将以Avro格式序列化的JSON事件推送到Kafka topic中，然后尝试在Spark Structured streaming中消费它。虽然Kafka part运行良好，但Spark Structured streaming无法读取Avro事件。它失败，并出现以下错误。 [Stage 0:> (0 + 1) / 1]2019-07-19 16:56:57 ERROR Utils:91 - Aborting task org.apache.avro

浏览 19提问于2019-07-19得票数 0

1回答

如何将流与以前的窗口数据连接起来？

apache-spark、spark-structured-streaming

我们每15分钟就会收到几百万条记录。在spark structured streaming中，将相同in的当前记录集与以前的记录集连接的最佳方式是什么？如何在重启后重新初始化之前的状态？我们已经尝试了HBase来存储之前的状态，但是它变得非常慢。如果我们使用spark任意会话，如何在重启后重新初始化以前的状态？我们现在已经在Kafka streams中实现了这一点。但是想知道在spark structured streaming中是否有实现的方法。

浏览 2提问于2020-07-15得票数 2

1回答

流查询在Spark中未显示任何进度

scala、apache-spark、spark-structured-streaming

我从Spark Structured Streaming应用程序获得表单的状态消息： 18/02/12 16:38:54 INFO StreamExecution: Streaming query made progress: { "id" : "a6c37f0b-51f4-47c5-a487-8bd269b80142", "runId" : "061e41b4-f488-4483-a290-403f1f7eff03", "name" : null, "timestamp" :

浏览 1提问于2018-02-12得票数 3

回答已采纳

1回答

Spark结构流批量查询

apache-spark、pyspark、spark-structured-streaming

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。集群A(本地机器)获取了6条记录，集群B( TST集群-第一次运行)获取了1条记录。 df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers",

浏览 0提问于2020-10-24得票数 0

1回答

Spark-Streaming挂起，kafka最早开始偏移(Kafka 2，spark 2.4.3)

apache-spark、apache-kafka、kafka-consumer-api、spark-structured-streaming

我对Spark-Streaming和Kafka有意见。在运行示例程序从Kafka主题消费并将微批结果输出到终端时，当我设置选项时，我的作业似乎挂起了： df.option("startingOffsets", "earliest") 从最新的偏移量开始工作很好，结果随着每个微批次的流过而打印到终端。我在想，也许这是一个资源问题--我正在尝试从一个有相当多数据的主题中阅读。但是，我似乎没有内存/cpu问题(使用本地*集群运行此作业)。这项工作似乎从来没有真正开始过，而只是悬而未决： 19/09/17 15:21:37 INFO Metadata: Cluste

浏览 21提问于2019-09-18得票数 4

回答已采纳

1回答

Spark structured streaming read from kafka json编码问题

json、apache-spark、apache-kafka、apache-kafka-connect、spark-structured-streaming

我很难使用Spark Structured Streaming在kafka主题中读取我的JSON数据。上下文：我正在构建一个简单的管道，在这里我使用kafka从MongoDb读取数据(这个数据库通常是从另一个应用程序中填充的)，然后我想在Spark中获取这些数据。为此，我使用了Spark Structured Streaming，这似乎是可行的。下面是我的代码： import org.apache.spark.rdd import org.apache.spark.sql.avro._ import org.apache.spark.sql.{Column, SparkSession

浏览 13提问于2019-03-11得票数 0

回答已采纳

2回答

如何为Spark结构化流媒体编写ElasticsearchSink

scala、apache-spark、elasticsearch、spark-structured-streaming

我正在使用Spark structured来处理Kafka队列中的大量数据，并执行一些繁重的ML计算，但我需要将结果写入Elasticsearch。我尝试使用ForeachWriter，但无法在其中获取SparkContext，另一种选择可能是在ForeachWriter中执行HTTP Post。现在，我正在考虑写我自己的ElasticsearchSink。有没有为Spark Structured streaming创建Sink的文档？

浏览 8提问于2017-02-24得票数 2

回答已采纳

1回答

无法解析流源的查询必须使用writeStream.start() Scala执行

scala、apache-spark、apache-kafka、spark-structured-streaming

我很难解决以下异常：“必须使用writeStream.start();；kafka执行流源查询” 我的代码如下： val spark = SparkSession .builder() .getOrCreate() val bootstrapServers = "localhost:9092" val topicName = "name" val df = spark .readStream .format("kafka") .option("kafka.bootstrap.

浏览 3提问于2021-05-28得票数 3

回答已采纳

1回答

为什么流查询不向HDFS写入数据？

scala、apache-spark、spark-structured-streaming

我在Spark 2.3.1中使用Spark Structured Streaming，下面是我的代码： val sparkSession = SparkSession .builder .appName("xxx") .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .config("spark.rpc.netty.dispatcher.numThreads", "2") .config("spark.s

浏览 1提问于2018-12-13得票数 1

1回答

将数据帧传递到结构化流中的UDF时出错

apache-spark、pyspark、apache-spark-sql、spark-structured-streaming、pyspark-dataframes

我在Spark Structured streaming中读取Kafka中的事件，需要一个接一个地处理事件并写入redis。我为此编写了一个UDF，但它给了我spark上下文错误。 conf = SparkConf()\ .setAppName(spark_app_name)\ .setMaster(spark_master_url)\ .set("spark.redis.host", "redis")\ .set("spark.redis.port", "6379")\ .set("spark.redis.auth&#

浏览 10提问于2020-07-13得票数 0

回答已采纳

2回答

如何将电火花数据发送到卡夫卡主题？

python、pyspark、apache-kafka、spark-structured-streaming、spark-kafka-integration

火花放电版本- 2.4.7卡夫卡版本- 2.13_3.2.0 嗨，我是新的火种和流属性。我在互联网上遇到了很少的资源，但我仍然无法弄清楚如何向kafka经纪人发送一个火花放电数据帧。我需要写一个制片代码。我正在从一个csv文件中读取数据，并试图将其发送到kafka主题。请帮我解决代码和配置。 import findspark findspark.init("/usr/local/spark") from pyspark.sql import SparkSession from pyspark.streaming.kafka import KafkaUtils from pysp

浏览 21提问于2022-06-13得票数 0

1回答

执行Spark streaming从Kafka主题读取数据时出错

windows、apache-spark、pyspark、apache-kafka

我是卡夫卡和斯帕克的新手。我已经通过Kafka生产者传递了消息，并试图在spark流中读取，但在main方法中遇到错误。代码如下所示。 spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.4.7 Streaming Example.py from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.streaming import StreamingContext from pyspar

浏览 15提问于2021-05-27得票数 0

1回答

为什么火花提交失败与“未能加载类的数据源: org.apache.spark.sql.cassandra”与卡桑德拉连接器在-jars？

apache-spark、apache-kafka、cassandra、spark-cassandra-connector

火花版本: 1.4.1 卡桑德拉版本: 2.1.8 Datastax Cassandra连接器: 1.4.2-SNAPSHOT.jar 我跑的命令 ./spark提交--jars /usr/local/src/spark-cassandra-connector/spark-cassandra-connector-java/target/scala-2.10/spark-cassandra-connector-java-assembly-1.4.2-SNAPSHOT.jar --驱动程序--类路径/usr/local/src/spark-cassandra-connector/spark-ca

浏览 2提问于2016-01-04得票数 0

回答已采纳

1回答

是否有可能让火花结构化流(更新模式)写入数据库？

apache-spark、apache-kafka、spark-structured-streaming

我使用spark(3.0.0)结构化流从kafka读取主题。我使用了joins，然后使用了mapGropusWithState来获取流数据，因此，根据我对火花官方指南：的理解，我不得不使用更新模式。下面的火花官方指南部分没有提到DB sink，它也不支持为update mode：写到files 目前，我将其输出到console，并希望将数据存储在文件或DB中。因此，我的问题是:在我的情况下，如何将流数据写入数据库或文件？我是否必须将数据写入kafka，然后使用kafka连接将数据读回文件/db？附注：我跟踪了这些文章以获得aggregated流查询。 - https://stackov

浏览 5提问于2020-09-16得票数 0

1回答

只能在流式数据集/数据帧上调用Spark :writeStream

apache-spark、elasticsearch、pyspark、apache-kafka、spark-structured-streaming

我正在尝试从我的Kafka集群中检索tweet到Spark Streaming，在Spark Streaming中我执行一些分析，将它们存储在ElasticSearch索引中。版本: Spark - 2.3.0 Pyspark - 2.3.0 Kafka - 2.3.0 Elastic Search - 7.9 Elastic Search Hadoop - 7.6.2 我在我的Jupyter环境中运行以下代码，将流数据帧写入Elastic Search。 import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packag

浏览 82提问于2020-11-04得票数 2

1回答

如何将默认的.ivy2缓存目录更改为其他目录？

java、apache-spark、apache-kafka

我的用户名中有空格，当使用kafka运行spark structured streaming时，它无法找到.ivy2文件夹和相应的.jar文件的路径。

浏览 51提问于2020-04-24得票数 1

1回答

Spark 结构化流媒体中的RecordTooLargeException

apache-spark、apache-kafka、spark-streaming、spark-structured-streaming、spark-streaming-kafka

我一直收到这个错误消息： The message is 1169350 bytes when serialized which is larger than the maximum request size you have configured with the max.request.size configuration. 正如在其他StackOverflow帖子中所指出的，我正在尝试在生产者中设置“max.request.size”配置，如下所示： .writeStream .format("kafka") .option( "kafka.bootstrap.

浏览 13提问于2020-05-26得票数 0

回答已采纳

1回答

Spark structured streaming with python

python、apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

我正在尝试用Kafka和Python来激发结构化流媒体。要求:我需要在Spark (执行转换)中处理来自Kafka ( JSON格式)的流数据，然后将其存储在数据库中。我有JSON格式的数据，比如{"a": 120.56, "b": 143.6865998138807, "name": "niks", "time": "2012-12-01 00:00:09"} 我计划使用spark.readStream来阅读卡夫卡的内容，比如 data = spark.readStream.format(

浏览 1提问于2017-04-08得票数 1

2回答

吡火花流twitter json to DF

python、json、apache-spark

我正在使用spark-streaming API与twitter集成python。我所见过的大多数示例或代码片段和博客都是从Twitter JSON文件中获取很少的列来进行最终操作。但是根据我的用例，我需要twitter JSON的所有字段，并将其转换为数据格式。这就是我所面临的问题，因为我sqlContext.read.json()正在将整个JSON DStream倾倒到_corrupt_record中。 +{u‘引号_计数’：...| \{u‘引号_计数’：...| 而且，使用spark structured streaming版本的2+似乎可以解决这个问题。但我必须坚持spark

浏览 0提问于2018-05-14得票数 1

回答已采纳

2回答

在scala spark中处理灵活模式json时，如何处理缺少的列？

scala、apache-spark、apache-kafka、spark-streaming

使用spark streaming读取kafka消息，其中V= Json事件。 Json的模式不是强制的，因此您可能会获取以下两个事件： {"foo": "01/01/1973","bar": "d,e"} {"foo": "01/01/1974"} 在字段不存在的情况下，如何使用read.json和df.registerTempTable("tempTable")创建一个插入空值的query = "select foo, bar from tempTable"？ *

浏览 2提问于2018-03-07得票数 1

1回答

Pool2kafka- NoClassDefFound: org/apache/commons/ PySpark

apache-spark、pyspark、apache-kafka、spark-kafka-integration

我在打印kafka主题的数据到控制台时遇到了问题。我得到的错误信息如下图所示。 ? 正如您在上图中所看到的，在batch 0之后，它不会进一步处理。 ? ? 所有这些都是错误消息的快照。我不明白错误发生的根本原因。请帮帮我。以下是kafka和spark版本： spark version: spark-3.1.1-bin-hadoop2.7 kafka version: kafka_2.13-2.7.0 我正在使用以下jars： kafka-clients-2.7.0.jar spark-sql-kafka-0-10_2.12-3.1.1.jar spark-toke

浏览 30提问于2021-07-02得票数 1

回答已采纳

1回答

writeStream:在一个单独的json文件中的每个数据帧行

pyspark、spark-streaming、pyspark-dataframes

我正在使用pyspark将Kafka主题中的数据作为流数据读取，如下所示： spark = SparkSession.builder \ .appName("Spark Structured Streaming from Kafka") \ .getOrCreate() sdf = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "localhost:9092") \ .option("subs

浏览 2提问于2020-03-12得票数 0

回答已采纳

2回答

无法使用spark streaming连接到kafka主题(python、jupyter)

python、apache-spark、pyspark、apache-kafka

我试着用spark连接到kafka的话题。它不会读取数据流中的任何数据，也不会产生任何错误。下面是我的jupyter代码： import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 pyspark-shell' from pretty import pprint from pyspark import SparkContext from pyspark.streaming import Stream

浏览 0提问于2019-12-19得票数 1

2回答

为什么kafka在从通道读取时收到-1，当spark流到安全的kafka时，套接字可能已经关闭？

java、apache-spark、apache-kafka、spark-streaming

当我试图从spark (使用Java)流到secured (使用SASL明文机制)时，我得到了这个错误。更详细的错误消息： 17/07/07 14:38:43 INFO SimpleConsumer: Reconnect due to socket error: java.io.EOFException: Received -1 when reading from a channel, the socket has likely been closed. Exception in thread "main" org.apache.spark.SparkException: j

浏览 55提问于2017-07-07得票数 2

回答已采纳

3回答

面对NoClassDefFoundError错误的卡夫卡-火花结构化流媒体集成通过PySpark

apache-spark、pyspark、apache-kafka、pyspark-sql、spark-structured-streaming

我在用 3.0.0-preview2Scala版本：2.12JAVA版本：1.8Kafka Broker版本：2.2.0 我配置了两个JARS(spark-sql-kafka-0-10_2.12-3.0.0-preview2.jar和kafka-clients-2.2.0.jar)，并将其保存在$SPARK_HOME/jars文件夹中。当我试图查看来自Kafka服务器的数据的键，值(因为Kafka的数据以JSON格式以Key对表示)时，我面临以下错误 java.lang.NoClassDefFoundError: org/apache/spark/kafka010/KafkaConfigUpd

浏览 9提问于2020-04-08得票数 2

2回答

SBT无法导入Kafka编解码类

apache-spark、sbt、apache-kafka、spark-streaming、kafka-consumer-api

项目设置： 1生产者-序列化对象&向Kafka发送字节。 1火花使用者-应该在DefaultDecoder包中使用kafka.serializer来消耗字节。发行： SBT导入正确的库(kafka-客户端+ kafka_2.10)，但无法在kafka_2.10 jar中找到任何类。它似乎是在错误的路径下搜索(org.apache.spark.streaming.kafka而不是org.apache.kafka)。错误消息： object serializer is not a member of package org.apache.spa

浏览 4提问于2016-04-04得票数 7

回答已采纳

1回答

Kafka producer -发送消息列表

apache-spark、apache-kafka

我需要发送几批消息，并确保每批中的所有消息都在同一批中一起到达消费者。例如，假设我需要发送5批/组400条消息，每组包含80条消息，需要在消费者端进行同一批消费。我使用spark structured-streaming来消费消息。我读过类似的问题，但我仍然对正确的方法感到困惑。生产者是否应该将所有消息(每批)放在一个列表中，并将该列表发送给kafka？有没有其他更好的方法？谢谢

浏览 3提问于2018-07-09得票数 0

1回答

使用火花流将谓词推送到kafka。在kafka级别过滤要从kafka读取的记录

apache-kafka、spark-streaming

我们有要求处理从kafka拉取的火花流消息。我们正在拉取消息的kafka主题有大约100种类型的消息。但我们只对大约15种类型的消息感兴趣。当前需要拉取所有消息，并在RDD或Dataframe上应用筛选选项。当许多消息在最初阶段被浪费时，我们是否可以阻止kafka发送这些消息给spark streaming？如果可能，我们可以让spark streaming在较小的节点容量下运行。我们每分钟收到大约100K条消息，其中只处理15k条消息。有单独的主题不适合我们，因为kafka和生产者是由第三方供应商管理的。

浏览 2提问于2018-03-31得票数 0

1回答

在spark-avro中找不到架构注册表的to_avro函数

scala、apache-spark、apache-kafka、avro

我正在尝试使用以下文档向kafka接收器写入内容：https://docs.databricks.com/spark/latest/structured-streaming/avro-dataframe.html#example-with-schema-registry 但是，我在spark-avro(https://mvnrepository.com/artifact/org.apache.spark/spark-avro_2.11)中找不到有多个参数的to_avro函数。是否有人知道它是否已被移动/重命名，或者我是否应该使用其他库？谢谢!

浏览 19提问于2020-08-06得票数 0

回答已采纳

1回答

spark streaming中限制Kafka消费数据

apache-kafka、spark-streaming、kafka-consumer-api

我正在从事火花流媒体项目。Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于卡夫卡的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1属性来限制spark中的记录。但是仍然在5分钟内，我收到了13400条消息。我的spark程序每5分钟不能处理超过1000条消息。Kafka topic有3个分区。我的spark驱动内存是5 3GB，有3个执行器，每个执行器3 3GB。如何在spark streaming中限制kafka的消息消耗。

浏览 17提问于2018-02-06得票数 0

2回答

在spark结构化流中写入来自kafka / json数据源的损坏数据

apache-spark、apache-spark-sql、spark-structured-streaming

在spark批处理作业中，我通常会将JSON数据源写入到一个文件中，并且可以使用DataFrame阅读器的损坏列功能将损坏的数据写出到不同的位置，并使用另一个阅读器从同一作业中写入有效数据。(数据写为拼接) 但在Spark Structred Streaming中，我首先通过kafka将流作为字符串读取，然后使用from_json获取我的DataFrame。然后，from_json使用JsonToStructs，它在解析器中使用FailFast模式，并且不将未解析的字符串返回到DataFrame中的列。(参见参考文献中的注释)那么我如何使用SSS将与我的模式不匹配的损坏数据和可能无效的JSO

浏览 34提问于2018-12-27得票数 1

回答已采纳

1回答

运行结构化流式处理时出错示例"WARN NetworkClient: Bootstrap broker ip-10-28-3-35.ec2.internal:2181 disconnected“

apache-spark、pyspark、apache-kafka、hortonworks-data-platform、spark-structured-streaming

在运行时，我得到了以下错误： WARN NetworkClient: Bootstrap broker ip-10-28-3-35.ec2.internal:2181 disconnected 环境: HDP-2.6.5.0 我能够按照给定的阅读卡夫卡的主题内容命令来运行这些作业 bin/spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.1 examples/src/main/python/sql/streaming/structured_kafka_wordcount.py ip-10-28-3-3

浏览 0提问于2018-06-22得票数 0

1回答

使用Spark Structured Streaming读取目录时，如何实现只读一次处理？

apache-spark、apache-kafka、spark-structured-streaming

我想使用流处理的概念从本地目录读取文件，然后发布到Apache Kafka。我考虑过使用Spark Structured Streaming。当读取50行文件后流式传输失败时，如何实现检查点。下一次启动时，它会从文件的第51行开始，还是会再次从文件的开头开始读取？此外，如果我们在结构化流媒体中使用检查点，当代码有任何升级或任何更改时，我们是否会有任何问题。

浏览 0提问于2019-02-25得票数 2

2回答

如何在Spark structured streaming中读取特定的Kafka分区

apache-kafka、kafka-consumer-api、spark-structured-streaming、spark-streaming-kafka

我的Kafka主题有三个分区，我想知道我是否可以从三个分区中的一个读取。我的客户是spark structured流媒体应用。下面是我在spark中现有的kafka设置。 val inputDf = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topic) .option("startingOffsets", "latest") .lo

浏览 15提问于2019-02-15得票数 2

回答已采纳

1回答

结构化流式传输指标性能？

apache-spark、monitoring、metrics、spark-structured-streaming

在尝试了一些监视结构化流性能和输入/输出指标的方法后，我发现一种可靠的方法是附加streamingQueryListener来输出streamingQueryProgress，以获得输入/输出数量。除了SparkUI，有没有更好的方法来监控结构化流性能？将queryProgress输出到文件或Kafka的最好方法是什么？在spark streaming和spark structured之间比较性能(速度、输入、输出记录)的有效方法是什么？

浏览 1提问于2018-05-19得票数 2