如何比较两个spark streaming作业的性能？

文章/答案/技术大牛

发布

1回答

scala、apache-spark、serialization、apache-kafka

我的spark工作是使用kafka主题中的数据并执行一些操作。区别在于序列化，一个是使用java序列化，另一个是使用kryo序列化。如何比较这两个流作业，因为它们在同一时间间隔内具有不同的每秒输入数量和不同的输入批量大小？

浏览 12提问于2019-12-04得票数 1

2回答

为什么Spark结构化流不允许改变输入源的数量？

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我打算停止流作业，添加/删除新主题，并在需要更新流作业中的主题时再次启动作业，使用中概述的两个选项之一。# Subscribe to multiple topics .readStream \ .option("kafka.bootstrap.serversload() df.selectExpr("CAST(key AS STRING)&quo

浏览 6提问于2020-06-09得票数 2

1回答

Spark结构每个微批两次流式读取数据。如何避免

scala、apache-spark、spark-structured-streaming、spark-streaming-kafka

我对spark structure streaming有一个非常奇怪的问题。Spark structure streaming为每个微批次创建两个spark作业。因此，从Kafka读取数据两次。但是使用spark创建了两个作业，一个只有1个阶段从Kafka读取，第二个有3个阶段读取-> shuffle ->写入。因此，第一个作业的结果从未使用过。这对

浏览 40提问于2020-04-10得票数 0

回答已采纳

1回答

spark流中是否允许睡眠语句

spark-streaming

) } } }); 当前，我无法运行我的作业

浏览 45提问于2019-06-19得票数 1

回答已采纳

1回答

星星之火卡夫卡结构化流:发布并发更新的日志。检测到多个流作业

apache-spark、apache-kafka

在我目前的设置中，我正在通过火花提交安排两个火花作业。spark.streaming.concurrentJobs 5当这两个工作都是独立调度时，它们就会按预期工作。但是，当我试图将它们放在一起时，通过一个接一个地提交，首先提交的作业将停止使用日志进行响应： java.l

浏览 0提问于2018-09-13得票数 1

1回答

Google Dataflow与Apache Spark Streaming (在Google Cloud上或使用Google Dataproc)

apache-spark、google-cloud-dataflow、google-cloud-dataproc

我刚接触云和大数据，但我对它们很感兴趣，而且我在Java编程方面有丰富的经验。我目前正在做我的uni项目，用来比较Apache Spark streaming和Google Cloud Dataflow的性能。我已经阅读了很多文章，包括的比较。我知道Spark和Dataflow的编程模型是不同的，但是由于我在这个领域的有限和新的知识，我试图理解是

浏览 2提问于2016-04-19得票数 0

3回答

为什么火花在从检查点还原时抛出"SparkException: DStream尚未初始化“？

apache-spark、spark-streaming、checkpointing

在从检查点恢复时，我需要做一些具体的事情吗？我可以看到它需要DStream.zeroTime集，但是当流被恢复时，zeroTime是null。它没有被恢复，可能是因为它是一个私有成员IDK。我可以看到还原流引用的StreamingContext确实有一个zeroTime值。是否有人有一个从检查点恢复并对zeroTime具有非空值的流示例？

浏览 2提问于2016-01-29得票数 7

回答已采纳

1回答

关于多个spark streaming作业消耗同一个群组id的kafka主题的问题

apache-kafka、spark-streaming、offset、partition

我提交了多个spark streaming作业，这些作业使用相同的group.id消耗同一个kafka topic，正如纯Kafka文档中所说的，拥有相同group.id的多个消费者将加入同一个消费组，并且kafka topic中分块的记录将被拆分成这些消费者。然而，正如我在我的工作中测试的那样，这两个spark streaming作业仍然使用相

浏览 63提问于2021-07-30得票数 0

1回答

结构化流式传输指标性能？

apache-spark、monitoring、metrics、spark-structured-streaming

在尝试了一些监视结构化流性能和输入/输出指标的方法后，我发现一种可靠的方法是附加streamingQueryListener来输出streamingQueryProgress，以获得输入/输出数量。除了SparkUI，将queryProgress输出到文件或Kafka的最好方法是什么？在spark streaming和spark structured之间比较性能</e

浏览 1提问于2018-05-19得票数 2

1回答

在HDinsight上运行的spark的故障恢复

azure、apache-spark、master-slave

我试图按照中的步骤在Azure HDinsight上运行Apache spark 我想知道我是必须自己管理主/从故障恢复，还是由HDinsight来处理。

浏览 0提问于2015-04-08得票数 0

1回答

Spark Streaming在哪里运行？

apache-spark、spark-streaming

据我所知，Spark可以使用Spark Streaming分析流。Kafka可以从多个来源接收数据。我不明白的是，如果我有一个Kafka集群从多个来源接收数据，数据会被发送到一个运行Spark Streaming的数据库吗？或者Spark Streaming是否在应用服务器上运行？

浏览 5提问于2017-01-25得票数 0

回答已采纳

2回答

Spark (Kafka)流内存问题

java、apache-spark、apache-kafka、out-of-memory

我正在测试我的第一条处理来自Kafka的消息的Spark Streaming管道。我的测试数据真的很小，所以这种情况不应该发生。在查看了process之后，我意识到可能之前提交的spark作业并没有完全删除？我通常像下面这样提交作业，并且我使用的是Spark 2.2.1 /usr/local/spark/bin

浏览 2提问于2018-05-04得票数 3

1回答

使用外部jar文件运行PySpark作业时找不到库

python、apache-spark、pyspark、mqtt

我有一个包含以下代码的PySpark作业InitiatorSpark.py： .option("topic",/spark-sql-streaming-

浏览 10提问于2018-07-23得票数 1

1回答

谷歌云DataProc的性能监控

google-cloud-platform、google-cloud-dataproc

对于处理，我们目前使用的是google cloud dataproc & spark-streaming。我们希望使用Ganglia、Graphite、Dr.Elephant等监控工具来检查作业性能。要设置其中任何一个，都需要修改每个节点中的配置。我想知道，数据处理程序本身是否支持任何这样的性能监控工具？

浏览 0提问于2016-06-13得票数 0

1回答

spark streaming中的ML模型更新

spark-streaming、apache-spark-ml

我已经通过spark批处理作业在hdfs中持久化了机器学习模型，我在我的spark streaming中使用了这个模型。基本上，ML模型是从spark驱动程序广播给所有执行器的。有人能建议我如何在不停止spark streaming作业的情况下实时更新模型吗？基本上，当有更多的数据点可用时，将创建一个新的ML模型，但不知道如何将

浏览 11提问于2018-02-12得票数 2

1回答

在卡夫卡星火流的情况下，spark.streaming.kafka.maxRatePerPartition和spark.streaming.backpressure.enabled有什么关系？

apache-spark、pyspark、apache-kafka、spark-streaming、spark-structured-streaming

/dir")我是一个初学者卡夫卡，并一直阅读卡夫卡性能优化技术，并遇到这两个。("spark.streaming.backpressure.enabled",”true”) 启用或禁用火花流的内部背压机制(自1.5起)。此速率是由spark.streaming.receiver.maxRate和spar

浏览 0提问于2021-09-13得票数 4

回答已采纳

2回答

每当文件落入s3存储桶时，Spark都会读取新交付的文件

amazon-web-services、apache-spark、amazon-s3

当文件登陆到s3中时，我想使用Spark来读取文件。我不想使用lambda函数，相反，我正在尝试寻找一些其他方法，每当较新的文件落入s3存储桶时，都可以从亚马逊s3中读取文件。AWS是否向Spark提供任何此类事件通知？

浏览 1提问于2020-04-21得票数 0

3回答

使用Spark* Streaming时限制Kafka批量大小*

apache-spark、apache-kafka、spark-streaming、kafka-consumer-api

是否可以限制Kafka消费者返回Spark Streaming的批量大小？我之所以问这个问题，是因为我得到的第一批记录有上亿条记录，需要很长时间才能处理和设置检查点。

浏览 0提问于2016-10-11得票数 18

回答已采纳

1回答

无法使用Spark* Structured Streaming覆盖默认值"spark.sql.shuffle.partitions“*

scala、apache-spark、spark-structured-streaming

我想直接在代码中覆盖spark.sql.shuffle.partitions参数： val sparkSession = SparkSession .appName("SPARK") sparkSession.conf.set("spark.sql.shuffle.partitions", 2) 但此设置不会生效，因为在日志中我收到以下警告消息虽然在spark-submit外壳中传递的相同参数可以正常

浏览 39提问于2021-04-30得票数 2

1回答

星火结构流自定义StateStoreProvide

java、apache-spark、spark-structured-streaming

默认情况下，结构化流作业使用HDFSStateStoreProvide。使用HDFS存储的问题是它是不可伸缩的。:481) at scala.Option.getOrElse(Option.scala:121) 如何配置自定义状态存储提供？--conf spark</em

浏览 1提问于2018-12-07得票数 1

点击加载更多