如何在Spark structured streaming中读取特定的Kafka分区_Spark Structured Streaming无法从docker内的kafka读取_读取Spark Structured Streaming中Kafka消息中的换行符分隔的json - 腾讯云开发者社区

apache-kafka、kafka-consumer-api、spark-structured-streaming、spark-streaming-kafka

我的Kafka主题有三个分区，我想知道我是否可以从三个分区中的一个读取。我的客户是spark structured流媒体应用。下面是我在spark中现有的kafka设置。 val inputDf = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topic) .option("startingOffsets", "latest") .lo

浏览 15提问于2019-02-15得票数 2

回答已采纳

1回答

将Kafka 0.8.2.1集群中的数据镜像到Kafka 2.2.0集群

apache-kafka、replication

我想使用Apache Spark Structured Streaming和Kafka，Spark Structured Streaming支持Kafka 0.10及更高版本，我的Kafka集群使用kafka版本0.8.2.1。我想将当前kafka 0.8.2.1集群中的一些主题复制到基于2.2.0的新Kafka集群中。为此，我尝试在Kafka 2.2.0集群上使用kafka-console-consumer来监听来自kafka集群0.8.2.1的消息，并将kafka-console-consumer的结果通过管道传输到kafka 2.2.0集群上的kafka-console-produc

浏览 17提问于2019-05-23得票数 1

2回答

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

apache-spark、apache-spark-sql

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

scala、apache-kafka、parquet、spark-structured-streaming

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html 然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图文件(长度太小: 4)或[.parquet不是拼图文件。期望的幻数在尾部80，65，82，49，但在读取它们时发现56，52，53，51]。我必须将它们移动到其他目录，并确保hi

浏览 20提问于2019-05-25得票数 0

1回答

Kafka producer -发送消息列表

apache-spark、apache-kafka

我需要发送几批消息，并确保每批中的所有消息都在同一批中一起到达消费者。例如，假设我需要发送5批/组400条消息，每组包含80条消息，需要在消费者端进行同一批消费。我使用spark structured-streaming来消费消息。我读过类似的问题，但我仍然对正确的方法感到困惑。生产者是否应该将所有消息(每批)放在一个列表中，并将该列表发送给kafka？有没有其他更好的方法？谢谢

浏览 3提问于2018-07-09得票数 0

1回答

如何在Spark Streaming中运行并发活动作业和执行者之间的公平任务调度

hadoop、apache-spark、spark-streaming、hadoop-yarn

我在Yarn上使用Spark Streaming，我面临着以下问题。问题1：我在yarn上使用spark streaming (1.6.1)，我总是看到活动作业计数为1，这意味着一次只有1个作业在运行。我已经使用了"--conf spark. streaming. concurrentJobs=3“参数，但不幸的是我总是只能看到1个活动作业。问题2：我有50个Kafka分区和spark streaming创建了50个RDD分区，但我可以看到95%的任务分配给了只有1个executor，其余的executor大多总是没有活动任务。我的Spark Submit

浏览 0提问于2016-12-08得票数 0

1回答

连接spark structured streaming + kafka出错

scala、apache-spark、apache-kafka、spark-streaming、spark-structured-streaming

我正在尝试连接我的结构化流式spark 2.4.5与kafka，但所有的时间，我尝试这个数据源提供程序出现错误。遵循我的scala代码和sbt构建： import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.streaming.Trigger object streaming_app_demo { def main(args: Array[String]): Unit = {

浏览 86提问于2020-05-04得票数 0

回答已采纳

6回答

Spark structured streaming kafka转换不带模式的JSON (推断模式)

apache-spark、apache-kafka、schema、spark-structured-streaming

我读到Spark Structured Streaming不支持将Kafka消息读取为JSON的模式推断。有没有一种方法可以像Spark Streaming一样检索模式： val dataFrame = spark.read.json(rdd.map(_.value())) dataFrame.printschema

浏览 1提问于2018-01-21得票数 13

1回答

如何在Spark streaming中避免批量大小的突然峰值？

apache-spark、apache-kafka、spark-streaming

我正在从kafka流式传输数据，并试图将每批事件的数量限制在10个事件。在处理10-15批次后，批次大小突然出现峰值。下面是我的设置： spark.streaming.kafka.maxRatePerPartition=1 spark.streaming.backpressure.enabled=true spark.streaming.backpressure.pid.minRate=1 spark.streaming.receiver.maxRate=2

浏览 4提问于2017-11-17得票数 0

1回答

可以在没有HDFS的情况下使用Spark Structured吗？

spark-structured-streaming

我经常使用HDFS和Kafka，我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming，我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么，有没有可能在没有HDFS的情况下使用spark structured？奇怪的是，我们只能在Kafka中将HDFS用于流数据。或者，有没有可能告诉斯帕克忘记ChekpPointing并在程序中管理它？ Spark 2.4.7 谢谢

浏览 39提问于2021-05-07得票数 2

1回答

如何在从Kafka中读取时异步进行spark流

apache-kafka、spark-streaming

我有一个Kafka分区和一个sparkStreaming应用程序。一台具有10核的服务器。当spark streaming从Kafka得到一条消息时，后续过程将需要5秒(这是我的代码)。所以我发现sparkStreaming读取Kafka消息非常慢，我猜当spark读出一条消息时，它会一直等到消息被处理，所以读取和处理是同步的。我想知道我可以让spark异步读取吗？因此，Kafka的读数不会被后续处理拖拽。然后火花将很快消耗来自Kafka的数据。然后我可以专注于spark内部缓慢的数据处理。顺便说一句，我正在使用foreachRDD函数。

浏览 0提问于2015-09-06得票数 1

1回答

与RabbitMQ的Spark结构化流媒体集成

apache-spark、rabbitmq、spark-streaming

我想使用Spark structured来聚合从RabbitMQ消费的数据。我知道与apache kafka有官方的spark结构化流媒体集成，我想知道是否也存在与RabbitMQ的集成？由于我不能切换现有的消息传递系统(RabbitMQ)，我想使用kafka-connect在消息传递系统(Rabbit to kafka)之间移动数据，然后使用Spark structured streaming。有人知道更好的解决方案吗？

浏览 0提问于2018-04-16得票数 0

1回答

在spark 2.4.X中获取kafka头文件

apache-spark、spark-structured-streaming、spark-streaming-kafka

如何在Spark Structured Streaming中获取Kafka header字段(在Kafka 0.11+中引入)？我看到headers实现是在Spark 3.0中添加的，但在2.4.5中没有。我看到默认情况下spark-sql-kafka-0-10使用的是kafka-client 2.0。如果不能使用Spark阅读Kafka的标题，那么你能推荐其他的替代方案吗？

浏览 0提问于2020-03-09得票数 0

1回答

Spark结构每个微批两次流式读取数据。如何避免

scala、apache-spark、spark-structured-streaming、spark-streaming-kafka

我对spark structure streaming有一个非常奇怪的问题。Spark structure streaming为每个微批次创建两个spark作业。因此，从Kafka读取数据两次。下面是一个简单的代码片段。 import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import org.apache.spark.sql.streaming.Trigger object CheckHowSpar

浏览 40提问于2020-04-10得票数 0

回答已采纳

1回答

Spark structured streaming无权访问组

scala、apache-spark、apache-kafka、spark-streaming、spark-structured-streaming

我正在尝试通过spark structured streaming从Kafka中读取数据。但是，在Spark 2.4.0.中，您不能为流设置组id (参见How to set group.id for consumer group in kafka data source in Structured Streaming?)。然而，由于没有设置，spark只是生成组Id，而我停留在GroupAuthorizationException： 19/12/10 15:15:00 ERROR streaming.MicroBatchExecution: Query [id = 747090ff-12

浏览 166提问于2019-12-10得票数 1

回答已采纳

1回答

卡夫卡偏移量超出范围

apache-spark、apache-kafka、spark-streaming

我正在用scala编写一个与kafka进行火花流连接的程序，我得到了以下错误： 18/02/19 12:31:39 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 39) org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {prensa4-0=744} at org.apache.kafka.clients.

浏览 0提问于2018-02-19得票数 2

1回答

多个Kafka主题多个阅读流的Spark结构化流式阅读

apache-spark、apache-kafka、spark-structured-streaming

考虑到来自两个主题的数据在一点连接并最终发送到Kafka接收器，这是从多个主题读取的最佳方式 val df = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", servers) .option("subscribe", "t1,t2") vs val df1 = spark .readStream .format("kafka") .option("kafka.bootstrap.ser

浏览 12提问于2020-04-13得票数 0

回答已采纳

2回答

如何将电火花数据发送到卡夫卡主题？

python、pyspark、apache-kafka、spark-structured-streaming、spark-kafka-integration

火花放电版本- 2.4.7卡夫卡版本- 2.13_3.2.0 嗨，我是新的火种和流属性。我在互联网上遇到了很少的资源，但我仍然无法弄清楚如何向kafka经纪人发送一个火花放电数据帧。我需要写一个制片代码。我正在从一个csv文件中读取数据，并试图将其发送到kafka主题。请帮我解决代码和配置。 import findspark findspark.init("/usr/local/spark") from pyspark.sql import SparkSession from pyspark.streaming.kafka import KafkaUtils from pysp

浏览 21提问于2022-06-13得票数 0

1回答

带有火花流集成误差的Kafka

java、apache-spark、pyspark、apache-kafka、spark-streaming

我不能用火花流来运行卡夫卡。以下是我迄今所采取的步骤：下载了"spark-streaming-kafka-0-8-assembly_2.10-2.2.0.jar“文件jar并将其移动到/home/ec2-user/spark-2.0.0-bin-hadoop2.7/jars 将这一行添加到/home/ec2-user/spark-2.0.0-bin-hadoop2.7/conf/spark-defaults.conf.template -> spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8-as

浏览 1提问于2018-11-08得票数 0

1回答

使用火花流将谓词推送到kafka。在kafka级别过滤要从kafka读取的记录

apache-kafka、spark-streaming

我们有要求处理从kafka拉取的火花流消息。我们正在拉取消息的kafka主题有大约100种类型的消息。但我们只对大约15种类型的消息感兴趣。当前需要拉取所有消息，并在RDD或Dataframe上应用筛选选项。当许多消息在最初阶段被浪费时，我们是否可以阻止kafka发送这些消息给spark streaming？如果可能，我们可以让spark streaming在较小的节点容量下运行。我们每分钟收到大约100K条消息，其中只处理15k条消息。有单独的主题不适合我们，因为kafka和生产者是由第三方供应商管理的。

浏览 2提问于2018-03-31得票数 0

2回答

2具有相同消费群id的火花流作业

apache-spark、apache-kafka、spark-streaming

我正在尝试对消费者群体进行实验。这是我的代码片段 public final class App { private static final int INTERVAL = 5000; public static void main(String[] args) throws Exception { Map<String, Object> kafkaParams = new HashMap<>(); kafkaParams.put("bootstrap.servers", "xxx:9092"); kafka

浏览 0提问于2018-05-27得票数 2

回答已采纳

1回答

如何将流与以前的窗口数据连接起来？

apache-spark、spark-structured-streaming

我们每15分钟就会收到几百万条记录。在spark structured streaming中，将相同in的当前记录集与以前的记录集连接的最佳方式是什么？如何在重启后重新初始化之前的状态？我们已经尝试了HBase来存储之前的状态，但是它变得非常慢。如果我们使用spark任意会话，如何在重启后重新初始化以前的状态？我们现在已经在Kafka streams中实现了这一点。但是想知道在spark structured streaming中是否有实现的方法。

浏览 2提问于2020-07-15得票数 2

2回答

星火流应用订阅相同的kafka主题

apache-spark、apache-kafka、spark-streaming、spark-streaming-kafka

我是新的火花和卡夫卡和我有一个稍微不同的使用模式火花流与卡夫卡。我在用 spark-core_2.10 - 2.1.1 spark-streaming_2.10 - 2.1.1 spark-streaming-kafka-0-10_2.10 - 2.0.0 kafka_2.10 - 0.10.1.1 连续事件数据正在被流到一个kafka主题中，我需要从多个火花流应用程序中处理这个主题。但是当我运行星火流应用程序时，只有其中一个接收数据。 Map<String, Object> kafkaParams = new HashMap<String, Object>(

浏览 3提问于2017-08-29得票数 4

回答已采纳

1回答

Spark结构流批量查询

apache-spark、pyspark、spark-structured-streaming

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。集群A(本地机器)获取了6条记录，集群B( TST集群-第一次运行)获取了1条记录。 df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers",

浏览 0提问于2020-10-24得票数 0

3回答

如何在spark数据流结构中使用非基于时间的窗口？

pyspark、apache-spark-sql、spark-streaming

我正在尝试使用window on structured与spark和kafka。我在非基于时间的数据上使用window，所以我得到了这个错误： 'Non-time-based windows are not supported on streaming DataFrames/Datasets;;\nWindow 下面是我的代码： window = Window.partitionBy("input_id").orderBy("similarity") outputDf = inputDf\ .crossJoin(ticketDf.with

浏览 0提问于2019-04-09得票数 5

1回答

org.apache.spark.SparkException:找不到Set的主偏移量([测试主题，0])

scala、apache-spark、apache-kafka、confluent-platform

我尝试使用汇流平台，并以为例，向REST端点发出高级别的Kafka请求。我使用以下Kafka参数： val kafkaParams = Map( "bootstrap.servers" -> "localhost:9092", "schema.registry.url" -> "http://localhost:8081", "group.id" -> "EventConsumer", "auto.offset.reset" -> "

浏览 3提问于2016-09-05得票数 0

1回答

结构化流式传输性能和清除地块文件

apache-spark、parquet、spark-structured-streaming

我正在使用Spark structured streaming从Kafka获取流数据。我需要聚合各种指标(比方说6个指标)，并编写为拼图文件。我确实看到指标1和指标2之间存在巨大的延迟。例如，如果指标1最近更新，则指标2是一小时前的数据。如何提高此性能才能并行工作？另外，我还编写了另一个应用程序应该读取的拼图文件。如何不断清除旧的实木地板信息？我应该有一个不同的应用程序吗？ Dataset<String> lines_topic = spark.readStream().format("kafka").option("kafka.bootstrap.ser

浏览 3提问于2018-01-06得票数 1

回答已采纳

1回答

关于多个spark streaming作业消耗同一个群组id的kafka主题的问题

apache-kafka、spark-streaming、offset、partition

我提交了多个spark streaming作业，这些作业使用相同的group.id消耗同一个kafka topic，正如纯Kafka文档中所说的，拥有相同group.id的多个消费者将加入同一个消费组，并且kafka topic中分块的记录将被拆分成这些消费者。然而，正如我在我的工作中测试的那样，这两个spark streaming作业仍然使用相同的主题的所有分区(不是均匀分割的)，并且在who进程期间没有发生重新分区/异常。这里有人知道Spark是如何管理与纯kafka平台不同的kafka分区偏移的吗？也许这是因为zookeeper管理spark中的kafka偏移量，而不是kafka本身管

浏览 63提问于2021-07-30得票数 0

1回答

在卡夫卡星火流的情况下，spark.streaming.kafka.maxRatePerPartition和spark.streaming.backpressure.enabled有什么关系？

apache-spark、pyspark、apache-kafka、spark-streaming、spark-structured-streaming

我正在尝试将数据写入一个卡夫卡主题后，阅读了一个蜂巢表如下。 write_kafka_data.py: read_df = spark.sql("select * from db.table where some_column in ('ASIA', 'Europe')") final_df = read_df.select(F.to_json(F.struct(F.col("*"))).alias("value")) final_df.write.format("kafka")\

浏览 0提问于2021-09-13得票数 4

回答已采纳

1回答

Spark-Streaming挂起，kafka最早开始偏移(Kafka 2，spark 2.4.3)

apache-spark、apache-kafka、kafka-consumer-api、spark-structured-streaming

我对Spark-Streaming和Kafka有意见。在运行示例程序从Kafka主题消费并将微批结果输出到终端时，当我设置选项时，我的作业似乎挂起了： df.option("startingOffsets", "earliest") 从最新的偏移量开始工作很好，结果随着每个微批次的流过而打印到终端。我在想，也许这是一个资源问题--我正在尝试从一个有相当多数据的主题中阅读。但是，我似乎没有内存/cpu问题(使用本地*集群运行此作业)。这项工作似乎从来没有真正开始过，而只是悬而未决： 19/09/17 15:21:37 INFO Metadata: Cluste

浏览 21提问于2019-09-18得票数 4

回答已采纳

2回答

错误org.apache.kafka.clients.producer.KafkaProducer :java.io.NotSerializableException

apache-spark

与MS等外部源连接，并将表数据发布到Kafka。获取 java.io.NotSerializableException:org.apache.kafka.clients.producer.KafkaProducer误差请在船尾下面找到。 **CustomReceiver.sacla** package com.sparkdemo.app import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.receiver.Receiver import

浏览 0提问于2019-02-21得票数 0

2回答

如何为Spark结构化流媒体编写ElasticsearchSink

scala、apache-spark、elasticsearch、spark-structured-streaming

我正在使用Spark structured来处理Kafka队列中的大量数据，并执行一些繁重的ML计算，但我需要将结果写入Elasticsearch。我尝试使用ForeachWriter，但无法在其中获取SparkContext，另一种选择可能是在ForeachWriter中执行HTTP Post。现在，我正在考虑写我自己的ElasticsearchSink。有没有为Spark Structured streaming创建Sink的文档？

浏览 8提问于2017-02-24得票数 2

回答已采纳

2回答

Spark和Kafka直接方法

java、apache-spark、apache-kafka、spark-streaming

我是Apache Spark的新手，我正在尝试运行Spark Streaming + Kafka集成直接方法示例(JavaDirectKafkaWordCount.java)。我已经下载了所有的库，但是当我尝试运行时，我得到了这个错误 Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object; at kafka.api.RequestKeys$.<init>(RequestKeys.sca

浏览 2提问于2016-05-04得票数 0

1回答

在Spark structured streaming中使用来自Kafka的Avro事件

apache-spark、avro、spark-structured-streaming

我设计了一个Nifi流，将以Avro格式序列化的JSON事件推送到Kafka topic中，然后尝试在Spark Structured streaming中消费它。虽然Kafka part运行良好，但Spark Structured streaming无法读取Avro事件。它失败，并出现以下错误。 [Stage 0:> (0 + 1) / 1]2019-07-19 16:56:57 ERROR Utils:91 - Aborting task org.apache.avro

浏览 19提问于2019-07-19得票数 0

1回答

火花结构化流执行者奇怪的行为

apache-spark、hadoop-yarn、executors、spark-structured-streaming

使用，使用Cloudera解决方案，我使用的是3个执行器，但是当我启动应用程序时，使用的执行器只有一个。如何使用多个执行器？让我给你更多信息。这是我的参数：命令启动： spark2-submit --master yarn \ --deploy-mode cluster \ --conf spark.ui.port=4042 \ --conf spark.eventLog.enabled=false \ --conf spark.dynamicAllocation.enabled=false \ --conf spark.streaming.backpressure.enabled=tru

浏览 0提问于2018-04-27得票数 2

回答已采纳

2回答

Spark流分区

apache-spark、apache-kafka、spark-streaming

我们正在使用Kafka和Spark streaming来处理贸易数据。我们从卡夫卡接收avro格式的数据[key，byte[]]。我们对数据进行反序列化，并将其进一步发送以进行处理。我们在spark流媒体应用中使用了DStreams。我们需要根据接收到的avro记录中的关键字对数据进行分区。因此，每当我们以流的形式从kafka接收数据时，它都应该将记录发送到指定的执行器。我们从Kafka那里收到了10种不同类型的密钥。所以所有包含key1的记录都应该放到Node1中，key2应该放到Node2中，等等。作为接收到的流数据，我们映射到RDD，而不是pairRDD。请告诉我们是否可以根据从k

浏览 1提问于2018-07-27得票数 0

4回答

Kafkaconsumer对于多线程访问是不安全的

spark-streaming

我使用下面的代码来读取Kafka主题，并处理数据。 JavaDStream<Row> transformedMessages = messages.flatMap(record -> processData(record)) .transform(new Function<JavaRDD<Row>, JavaRDD<Row>>() { //JavaRDD<Row> records = ss.emptyDataFrame().toJavaRDD();

浏览 1提问于2017-06-14得票数 11

1回答

无法解析流源的查询必须使用writeStream.start() Scala执行

scala、apache-spark、apache-kafka、spark-structured-streaming

我很难解决以下异常：“必须使用writeStream.start();；kafka执行流源查询” 我的代码如下： val spark = SparkSession .builder() .getOrCreate() val bootstrapServers = "localhost:9092" val topicName = "name" val df = spark .readStream .format("kafka") .option("kafka.bootstrap.

浏览 3提问于2021-05-28得票数 3

回答已采纳

1回答

Spark -获取Kafka的最早和最新偏移量，无需打开流

scala、apache-spark、apache-kafka

我目前正在使用spark-streaming-kafka-0-10_2.11将我的spark应用程序与kafka队列连接起来。对于Streams来说，一切都很好。然而，对于特定的场景，我只需要一次kafka队列的全部内容-为此，我得到了更好地使用KafkaUtils.createRDD ()的建议。然而，对于spark-streaming-kafka-0-10_2.11，我不知道如何为我的Kafka主题获取最早和最新的偏移量，这将是创建createRDD方法所需的偏移量范围所必需的。在不打开流的情况下获得这些偏移量的推荐方法是什么？任何帮助都将不胜感激。

浏览 5提问于2017-06-26得票数 5

1回答

卡夫卡的pySpark结构化流不输出到控制台进行调试。

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

下面是我的密码。我尝试了许多不同的选择变体，但应用程序运行，但没有显示消息，这些信息正在编写的每一秒。我有一个使用pprint()的星火流示例，它确认kafka实际上每秒钟都会收到消息。Kafka中的消息是JSON格式的，请参见字段/列标签的架构： from pyspark.sql.functions import * from pyspark.sql.types import * import statistics KAFKA_TOPIC = "vehicle_events_fast_testdata" KAFKA_SERVER = "10.2.0.6:2181&

浏览 6提问于2019-12-31得票数 4

回答已采纳

1回答

Spark 2应用程序失败，无法找到错误的引线偏移

apache-spark、apache-kafka

我有我的spark应用程序，从Kafka读取数据并摄取到Kudu。它已经成功运行了近25个小时，并将数据摄入到了Kudu中。在那之后，我看到从kafka日志中选出了新的kafka分区的领导者。我的应用程序进入完成状态，并出现以下错误 org.apache.spark.SparkException: ArrayBuffer(kafka.common.NotLeaderForPartitionException, org.apache.spark.SparkException: Couldn't find leader offsets for Set([test,0])) at org.a

浏览 20提问于2018-02-13得票数 0

1回答

kafka消费者如何从不同的分区以相似的速度读取数据？

apache-spark、apache-kafka、apache-flink

在使用Spark Structured Streaming和Kinesis Streams时，我在重新处理流中积累的数据时遇到了读取不平衡的情况(而不是从最新数据读取)。下图显示了作为流的一部分的运动碎片的读取速度的差异。这使得spark作业丢弃了许多事件，因为事件时间非常不同的事件会被混淆，而那些被认为是旧的事件会被丢弃。最近，一位团队成员建议改用Kafka。我对Apache Kafka解决这个问题持怀疑态度，因为AFAIK修复我上面描述的读取不平衡的唯一方法是在消费者级别引入某种协调。这就是Apache Flink的kinesis连接器在重新处理Kinesis stream

浏览 1提问于2021-07-04得票数 1

1回答

为什么在访问偏移量时，ClassCastException与重新分区的dstream一起发生流流失败？

apache-spark、apache-kafka、spark-streaming

在我的星火应用程序中，我以如下方式从一个Kafka主题创建了一个DStream： KafkaUtils .createDirectStream[String, Array[Byte], StringDecoder, DefaultDecoder, (String, Array[Byte])]( streamingContext, kafkaParams, offset.get, { message: MessageAndMetadata[String, Array[Byte]] => (message.key(), message.message()

浏览 3提问于2017-05-30得票数 1

回答已采纳

1回答

是否有可能让火花结构化流(更新模式)写入数据库？

apache-spark、apache-kafka、spark-structured-streaming

我使用spark(3.0.0)结构化流从kafka读取主题。我使用了joins，然后使用了mapGropusWithState来获取流数据，因此，根据我对火花官方指南：的理解，我不得不使用更新模式。下面的火花官方指南部分没有提到DB sink，它也不支持为update mode：写到files 目前，我将其输出到console，并希望将数据存储在文件或DB中。因此，我的问题是:在我的情况下，如何将流数据写入数据库或文件？我是否必须将数据写入kafka，然后使用kafka连接将数据读回文件/db？附注：我跟踪了这些文章以获得aggregated流查询。 - https://stackov

浏览 5提问于2020-09-16得票数 0

2回答

每批大小的火花流调整记录的数量不起作用？

apache-spark、spark-streaming、dstream

我的星火流应用程序是从卡夫卡读取使用DStream方法，我试图获得批量大小，以处理60,000条消息在10秒内。我所做的，创建了一个具有3个分区的主题 spark.streaming.kafka.maxRatePerPartition = 60000 spark.streaming.backpressure.enabled = true 创建StreamingContext时，将批处理持续时间设置为10秒在纱线模式下运行，有2个执行器(4个芯，3个分区) 现在我如何测试这是可行的。我有一个制作人，它会立即向这个主题发送6万条信息。当我检查spark时，会得到

浏览 0提问于2019-07-08得票数 2

回答已采纳

2回答

结构化流式写入到不同的拼图文件夹

apache-spark、apache-spark-sql、parquet、spark-structured-streaming

我正在使用spark structured streaming从kafka主题中读取事件，并对其进行处理并将其写入到parquet中。我必须根据我在事件中获得的键将输出写入不同的文件夹。我尝试使用结构化流式处理示例始终指向特定的文件夹.Do我需要为每个文件夹启动一个流吗？ df.writeStream.format("parquet").option("path", "path/to/destination/dir").start()

浏览 2提问于2018-08-13得票数 0

3回答

如何在星火流应用程序中使用Kafka主题？

apache-spark、pyspark、apache-kafka、spark-streaming

当我从Kafka主题创建一个流并打印它的内容时 import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 pyspark-shell' from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka impo

浏览 2提问于2019-12-08得票数 1

回答已采纳

2回答

如何获取Kafka消费者的偏移量？

apache-kafka、spark-streaming、kafka-consumer-api、kafka-producer-api

使用Kafka(v2.11-0.10.1.0)-spark-streaming(v-2.0.1-bin-hadoop2.7). 我有Kafka生产者和Spark-streaming消费者来生产和消费。一切正常，直到我停止消费者(大约2分钟)并重新开始。消费者启动并读取数据，绝对完美。但是，我迷失了2分钟的数据，其中消费者是关闭的。 Kafka consumer/server.properties保持不变。带有属性的Kafka生产者： Properties properties = new Properties(); properties.put

浏览 16提问于2017-01-18得票数 0

1回答