Spark作业之间的隐形延迟

是指在Spark集群中，由于资源竞争、数据倾斜、网络延迟等原因导致的作业执行时间的延迟，这种延迟在作业执行过程中不易被察觉到。

隐形延迟可能会对作业的整体性能产生负面影响，因为它会导致作业之间的执行时间不均衡，从而降低整个Spark应用的吞吐量和响应时间。

为了减少Spark作业之间的隐形延迟，可以采取以下措施：

资源管理优化：合理配置Spark集群的资源，包括内存、CPU等，确保每个作业都能够获得足够的资源进行执行。
数据倾斜处理：通过数据预处理、数据重分区等方式解决数据倾斜问题，避免某些分区数据过多导致作业执行时间过长。
网络优化：优化Spark集群的网络配置，减少网络延迟，可以考虑使用高速网络、调整网络拓扑等方式提升作业之间的数据传输效率。
任务调度策略优化：合理选择Spark作业的调度策略，如FIFO、Fair等，根据作业的特点和需求进行调度，避免资源争用和作业之间的相互影响。
数据缓存和持久化：对于频繁使用的数据，可以使用Spark的缓存机制将其缓存在内存中，避免重复计算和IO开销，提高作业执行效率。
并行度调整：根据作业的特点和数据量，合理调整Spark作业的并行度，避免资源浪费和作业之间的竞争。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark：腾讯云提供的Spark云服务，支持大规模数据处理和分析，具有高性能和高可靠性。详情请参考：https://cloud.tencent.com/product/spark
腾讯云弹性MapReduce：腾讯云提供的弹性MapReduce云服务，基于Hadoop和Spark生态系统，支持大规模数据处理和分析。详情请参考：https://cloud.tencent.com/product/emr
腾讯云CDH：腾讯云提供的CDH（Cloudera Distribution of Hadoop）云服务，基于Hadoop生态系统，支持大规模数据处理和分析。详情请参考：https://cloud.tencent.com/product/cdh

请注意，以上产品仅为示例，其他云计算品牌商也提供类似的产品和服务。

火花作业卡在方法收集上

当我运行我的星火作业时，它似乎被困在收集器上：我使用命令启动jar： ./spark-1.3.0-bin-hadoop2.4/bin/spark-submit \ --class com.MyObject \ --master spark://192.168.192.22:7077 \ --executor-memory 512M \ --driver-memory 512M \ --deploy-mode cluster \ --total-executor-cores 4 \ /home/pi/spark-job-jars/spark-job-0.0

浏览 4提问于2015-04-03得票数 2

回答已采纳

1回答

在并行提交多个作业时，火花提交失败。

、、

我有一个火花应用程序，我需要应用到不同的文件，并尽快得到结果，因此，为了做到这一点，我创建了一个python模块，它将准备文件，然后启动不同的火花提交作业。在继续之前，我将稍微解释一下火花提交如何启动一项工作。本机星星之交的启动库在临时目录中创建一个临时文本文件，其中包含要执行的命令，以获得更多详细信息。该文件的路径具有以下语法：.../AppData/Local/Temp/spark-class-launcher-output-{RANDOM_VALUE}.txt，其中RANDOM_VALUE似乎是一个随机数。问题是，当我同时启动多个火花作业时，RANDOM_VALUEs会发生冲突，因

浏览 0提问于2019-02-28得票数 0

1回答

作业未显示在Spark WebUI上

、、

我是一个天真的spark用户。我安装了spark，并使用anaconda安装了pyspark，然后在下面给出的jupyter笔记本中运行一段基本代码。然后我打开spark WebUI，但是我看不到任何正在运行或已完成的作业。如有任何意见，欢迎光临。 from pyspark.sql import SparkSession spark = SparkSession.builder\ .master("local")\ .appName("NQlabtop")\ .config('spark.ui.port', '40

浏览 20提问于2021-01-28得票数 1

2回答

5分钟Spark批处理作业与流作业

、

我正在试着找出什么是更好的方法。我有一个火花批处理作业，这是计划运行每5分钟，它需要2-3分钟来执行。由于已经添加了对动态分配spark.streaming.dynamicAllocation.enabled的支持，将其设置为每5分钟从源拉取数据的流式作业是一个好主意吗？在流/批处理作业之间进行选择时，我应该记住哪些事项？

浏览 0提问于2019-07-24得票数 0

1回答

Spark Streaming Redshift性能问题

、

我在我的Spark streaming代码中有许多在Redshift表上操作的创建表、插入和更新。我使用的是Spark 2.2、spark-redshift-preview 3.0.0 jar和scala 2.11.8。通过流式作业在Redshift中插入/更新5000行数据花费了超过20分钟的时间-这超出了我的spark微批处理窗口，并且使我的系统不稳定。我应该设置什么配置参数来加速Spark Streaming作业中的Redshift查询？我必须每5分钟至少插入和更新10K行。

浏览 1提问于2017-11-06得票数 0

1回答

为什么dataproc不承认论点: spark.submit.deployMode=cluster？

我以这种方式向dataproc提交了一个火花作业： gcloud dataproc作业提交星星之火--集群=$集群--region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.19.1，spark.submit.deployMode=cluster --class path.to.my.main.class --jars= spark .to.jars- "-p“"some_arg”"-z“"some

浏览 2提问于2021-04-29得票数 4

回答已采纳

2回答

蒙古-火花连接器的工作逻辑是什么？

、、

我一直在试图了解蒙戈火花连接器是如何工作的罩下，但我仍然没有得到整个工作逻辑的背后。 Details：我正在尝试使用MongoDB运行一个火花作业，主要针对MongoDB集合执行文本搜索。星火和MongoDB运行在两个不同的集群上。因此，我创建了以下Spark数据框架： entity_df = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource") \ .option("spark.mongodb.input.database", "Wi

浏览 3提问于2017-12-15得票数 0

回答已采纳

4回答

如何在两个应用程序之间共享Spark RDD中的数据

、、

在两个spark作业之间共享spark RDD数据的最佳方式是什么。我有一个案例，其中作业1:火花滑动窗口流应用程序，将以定期间隔消耗数据并创建RDD。这是我们不想保存到存储中的。作业2:将访问在作业1中创建的相同RDD并生成报告的查询作业。我看到他们建议SPARK Job Server的查询很少，但由于它是一个开源的，不确定它是否是一个可能的解决方案，但任何指针都会有很大的帮助。谢谢！

浏览 5提问于2016-01-19得票数 4

1回答

Spark作业抛出“org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [120秒]”

我在AWS EMR上运行Spark，但spark作业有时会抛出org.apache.spark.rpc.RpcTimeoutException: Futures timed out after 120秒“

浏览 399提问于2021-07-31得票数 0

1回答

为什么web用户界面在作业和阶段页面中显示不同的持续时间？

、

我正在运行一个虚拟的spark作业，它在每次迭代中执行完全相同的一组操作。下图显示了30次迭代，其中每个作业对应于一个迭代。可以看到，除了作业0、4、16和28之外，持续时间始终在70ms左右。第一次加载数据时，作业0的行为是预期的。但当我单击作业16进入其详细视图时，持续时间仅为64ms，这与其他作业类似，此持续时间的屏幕截图如下：我想知道Spark把(2000 - 64)毫秒花在工作16上了吗？

浏览 2提问于2017-06-26得票数 1

2回答

如何使火花完成后自动重新启动作业？

、、

我正在构建一个lambda体系结构，并且需要Spark作为它的批处理部分，以便定期或在完成后立即重新启动自己，或者让Spark流作业调用重新启动。我看过一些东西，我可能不理解星火上下文，但我不确定我是否可以把星火上下文放在一个循环中。有人能提供任何快速的指导吗？另一个快速的问题是，考虑到数据将不断地添加到HBase中，Spark将从那里读取数据，那么缓存有什么用处吗？提前谢谢你的帮助。编辑：如果我实现一个SparkListener并在作业结束时进行呼叫收集，那么所有的计算都会被重做吗？

浏览 7提问于2016-03-18得票数 2

回答已采纳

2回答

Spark.read.csv()是转换上的操作吗

、、

在“火花权威指南”一书中，比尔说，阅读是一种转变，它是一种狭义的转变，现在，如果我运行以下spark代码并尝试查看spark UI，我会看到一个创建了df = spark.read.csv("path/to/file")的作业据我所知，Job是一个叫做的动作。此外，如果我尝试在读取CSV时输入一些选项，我会在spark UI中看到另一个作业，例如，当我们运行以下代码时，在spark UI df = spark.read.option("inferSchema", "true").csv("path/to/file")中有2个作

浏览 1提问于2021-05-01得票数 2

1回答

无法建立到Kafka的连接时，Spark流式作业不会失败

、、、

我在AWS EMR上使用Spark Streaming连接到AWS MSK上的Kafka集群。我正在使用spark-sql-kafka-0-10和Spark 2.4.3。如果安全组配置不正确，Spark Streaming作业会卡住数小时，并显示以下警告： 20/06/29 14:10:42 WARN NetworkClient: [Consumer clientId=consumer-1, groupId=spark-kafka-source...] Connection to node -1 could not be established. Broker may not be avai

浏览 0提问于2020-06-30得票数 0

1回答

Spark2-多个包的提交抛出错误(--package)

、、

我正在尝试在cdh5.16集群上提交以下Spark2作业，它只接受--packages选项的第一个参数，并为第二个参数抛出错误 spark2-submit --packages com.databricks:spark-xml_2.11:0.4.1, com.databricks:spark-csv_2.11:1.5.0 /path/to/python-script Exception in thread "main" org.apache.spark.SparkException: Cannot load main class from JAR com.databrick

浏览 10提问于2019-10-20得票数 0

回答已采纳

2回答

如何并行提交多个星火应用程序而不产生单独的JVM？

、、、

问题是，您需要启动单独的JVM来创建每个作业具有不同数量RAM的单独会话。如何在不手动生成单独JVM的情况下同时提交少量的星火应用程序？我的应用程序运行在单个服务器上，在单个JVM中。这在每个JVM范型的Spark会话中都出现了问题。火花范式是这样说的： 1 JVM => 1 app => 1 session => 1 context => 1 RAM/executors/cores config 我希望每个星火应用程序都有不同的配置，而不需要手动启动额外的JVM。组合： spark.executor.cores spark.executor.memory

浏览 7提问于2017-05-16得票数 7

回答已采纳

1回答

火花-提交：--罐子不起作用

、

我正在为火花流作业构建度量系统，在系统中，每个执行者收集度量，因此需要在每个执行器中初始化度量源(用于收集度量的类)。度量源打包在jar中，当提交作业时，jar将使用参数“- jar”从本地发送到每个执行器，然而，执行器在jar到达之前开始初始化度量源类，因此它抛出类没有发现异常。如果执行者能够等到所有资源准备就绪，问题就会解决，但我真的不知道如何去做。有没有人面临同样的问题？ PS:我尝试使用HDFS (将jar复制到HDFS，然后提交作业并让executor从HDFS的路径加载类)，但失败了。我检查了源代码，似乎类加载器只能解析本地路径。下面是日志，您可以看到jar在2016-01

浏览 4提问于2016-01-15得票数 5

1回答

是否有可能运行多个并行写入S3的Spark结构化流作业？

、、、

我正在尝试运行多个星火结构化流作业(在EMR上)，这些作业从卡夫卡主题中读取并写入S3中的不同路径(每个路径在各自的任务中执行)。我已经将我的集群配置为使用。下面是我试图运行的代码片段： df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", <BOOTSTRAP_SERVERS>) \ .option("subscribePattern", "<MY_TOPIC>")

浏览 2提问于2020-06-15得票数 1

1回答

在spark应用中导致延迟的亚秒级延迟

、、

我有一个每分钟运行一次的spark批处理作业，每批处理大约200k条记录。该应用程序通常的处理延迟为~30秒。在应用程序中，对于每个请求，我们向DynamoDB发出一个写请求。有时，服务器端DDB写入延迟约为5毫秒，而不是3.5毫秒(比通常的延迟3.5毫秒增加了约30%)。这会导致应用程序的总体延迟增加6倍(~3分钟)。 DDB调用的亚秒级延迟对app整体延迟有6倍的影响？ PS:我已经通过重叠DDB put延迟和spark应用处理延迟的云观察图验证了根本原因。谢谢，维诺德。

浏览 29提问于2021-08-13得票数 0

1回答

Spark-submit main类中的主url和SparkSession主url，有什么区别？

在使用spark-submit提交作业时，我设置了主URL，并为他提供了一个主类，例如： spark-submit --class WordCount --master spark://spark:7077 my.jar 但是在这个主类中，我的spark上下文定义了另一个主url： SparkSession.builder().appName("Word2vec").master("local"). 这让我感到困惑，如果我向独立集群(spark://spark:7077)的主机发送一个带有spark-submit的作业，而该主机启动了一个带有local主机的Sp

浏览 1提问于2016-08-08得票数 8

回答已采纳

1回答

Spark作业之间的隐形延迟

、、、、

对于应用程序，有4个主要操作(jdbc写入)和几个计数，总共需要4-5分钟才能完成。但应用程序的总正常运行时间约为12-13分钟。我看到某些作业在ThreadPoolExecutor.java : 1149上按名称运行。就在此作业在Spark UI上反映之前，出现了看不见的长时间延迟。我想知道这些延误的可能原因是什么。我的应用程序正在读取8-10个CSV文件，5-6个视图。joins的数量约为59个，具有agg(sum)的groupBy很少，并且有3个联合。我不能在DEV/UAT环境中重现这个问题，因为数据不是那么多。它在我得到应用程序的生产环境中。由我的经理运行执行。如果有人在他们

浏览 15提问于2021-07-20得票数 1

1回答

火花:长时间的工作延迟，为什么火花会节省对司机的桌子？

、

我在Yarn上运行spark，遇到了类似于以下链接的问题：有一个很长的延迟张贴的行动，是保存表。在Spark上，我可以看到特定的saveAsTable()作业已经完成，但是没有提交任何新的作业。在第一个链接中，答案是I/O操作将发生在主节点上，但我对此表示怀疑。在间隙时间，我检查了保存表的hdfs，然后我可以看到_temporary文件而不是_success文件。看起来答案是真理和火花是保存在驱动端的桌子。为什么？！！我使用下面的代码保存表： dataframe.write.partitionBy(partitionColumn)).format(format) .mode(Sav

浏览 3提问于2019-10-31得票数 0

1回答

对多个作业使用相同的JavaSparkContext，以防止在火花驱动程序初始化时使用时间

、、、

我正试图在上运行Spark作业。然而，正如它通常所看到的，星火驱动程序的初始化占用了执行时间的很大一部分。我想知道使用相同的JavaSparkContext实例在Google上运行多个Spark作业的好方法，这样我就不会因为火花驱动程序初始化而失去每个作业的性能。目前，我的代码如下所示： public static void main(String[] args) { SparkConf configuration = new SparkConf().setAppName("App"); final JavaSparkContext context = new

浏览 2提问于2016-03-01得票数 1

回答已采纳

1回答

在现有交互式databricks集群的dbfs上执行pyspark代码

、、、

我正在处理Azure Databricks。目前我的Pyspark项目在'dbfs‘上。我配置了一个spark-submit作业来执行我的Pyspark代码(.py文件)。然而，根据Databricks文档，spark-submit作业只能在新的自动化集群上运行(可能是设计出来的)。有没有办法在现有的交互式集群上运行我的Pyspark代码？我还尝试在%sh单元格中的notebook中运行spark-submit命令，但没有使用。

浏览 4提问于2020-05-22得票数 0

1回答

动态更新火花卡夫卡用户输入的批次大小

、、

我在我的火花流应用程序中使用createDirectStream。我将批处理间隔设置为7秒，大部分时间批处理作业可以在大约5秒内完成。但是，在非常罕见的情况下，批处理作业需要花费60秒，这将延迟一些批作业。为了减少总延迟时间，我希望我能处理更多的流数据，这些数据分布在一次延迟的工作上。这将有助于流尽快恢复正常。因此，我想知道有什么方法可以在延迟出现时动态地更新/合并spark和kafka输入的批次大小。

浏览 3提问于2016-12-19得票数 0

2回答

如何在两个作业之间进行延迟？

、、

我已经使用了laravel作业，我试着用延迟来分派两个作业，但都不起作用。我的想法是调度x个作业，它们之间有延迟。等待10秒调度->作业%1 等待10秒调度->作业2 等待10秒调度->作业3 以此类推。 artisan queue:work --tries=1 --queue=generate-xml generateXML::dispatch($this->account) ->onQueue('generate-xml') ->delay(Carbo

浏览 13提问于2019-02-07得票数 2

1回答

星火结构流自定义StateStoreProvide

、、

默认情况下，结构化流作业使用HDFSStateStoreProvide。使用HDFS存储的问题是它是不可伸缩的。当作业在交通繁忙时间从kafka获得更多数据时，由于以下错误而失败： 18/12/06 15:54:35 ERROR scheduler.TaskSetManager: Task 191 in stage 231.0 failed 4 times; aborting job 18/12/06 15:54:35 ERROR streaming.StreamExecution: Query eventQuery [id = 42051afe-b1bc-438d-8143-2d7e5def

浏览 1提问于2018-12-07得票数 1

1回答

Spark execution - spark执行作业和spark操作之间的关系

我有一个关于火花执行的问题。我们都知道，每个spark应用程序(或驱动程序)可能包含一个或多个动作。我的问题是哪一个是正确的-一个作业集合对应于一个动作，还是每个作业对应一个动作。这里的job是指可以在Spark execution UI中看到的作业。我认为后者是正确的(每个作业对应一个操作)。请验证谢谢。

浏览 1提问于2019-10-30得票数 1

1回答

我们如何预先确定Spark作业的数量？

根据我的经验，Spark驱动程序可以为给定的应用程序运行多个作业，这些作业被分阶段分解为每个执行器的任务。我似乎不能理解的是，什么时候以及为什么一个sparkcontext会运行多个作业？

浏览 5提问于2017-08-28得票数 0

1回答

如何提高AeroSpark读取性能？

、、、

我正在使用最新的AeroSpark连接器来处理AeroSpike和Spark ML。但是当我在AeroSpike中插入大约60M条记录时，我在读取操作中获得了太多的时间。例如，对于从包含60M条记录的集合中获取500K记录，AeroSpark大约需要30分钟。当我查看htop cmd输出时，AeroSpike只使用了7%的CPU。每一轮记录包含1k的数据。AeroSpike和Spark托管在同一节点上。按辅助索引筛选的数据。如何提高读取操作的性能？似乎AeroSpark只由一个线程工作，我如何并行化这个作业？有什么建议吗？ AeroSpike会议： memory-size 8G defau

浏览 0提问于2016-08-10得票数 1

3回答

齐柏林飞艇:如何在齐柏林飞艇中重启sparkContext

、

我正在使用zeppelins spark解释器的隔离模式，在这种模式下，它将为spark集群中的每个笔记本启动一个新作业。当笔记本执行完成时，我想通过zeppelin终止作业。为此，我做了sc.stop，这会停止sparkContext，作业也会从spark集群中停止。但下次当我尝试运行笔记本电脑时，它不会再次启动sparkContext。那么如何做到这一点呢？

浏览 3提问于2016-11-11得票数 16

2回答

蜂巢进度条上的火花卡卡在10%

、、、、

最近，我们升级到Spark1.6，并尝试使用SparkQL作为Hive的默认查询引擎。使用HiveServer2在同一台机器上添加火花网关角色，并启用。但是，当我运行如下查询时： SET hive.execution.engine=spark; INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country; 我们看到该作业被Yarn接受，分配了资源，并且status表示它正在运行，但是它显示了10%的持

浏览 4提问于2017-10-10得票数 1

回答已采纳

1回答

如何在集群模式下在纱线上并行运行多个spark作业？

、

例如，当我向yarn集群提交第一个作业时，该作业正在运行，然后提交第二个作业，在第一个作业成功或失败之前，第二个作业状态永远不会运行。有没有办法在集群模式下在纱线上并行运行多个spark作业？

浏览 0提问于2017-10-09得票数 2

1回答

spark struct流writeStream输出无数据但无错误

、、、、

我有一个结构流作业，从Kafka主题读取消息，然后保存到dbfs。代码如下： input_stream = spark.readStream \ .format("kafka") \ .options(**kafka_options) \ .load() \ .transform(create_raw_features) # tranformation by 7 days rolling window def transform_func(df): window_spec = window("event_timestamp", "7

浏览 4提问于2021-08-25得票数 0

2回答

星星之火:将RDD缓存到另一个作业中

、

我正在运行一个接受输入的星火作业，它是由相同的前一个作业生成的。现在，作业将结果输出到HDFS，以便下一次运行时读取，是否有一种方法可以缓存每个作业的输出，以便以后的运行不必从HDFS读取？更新:或者spark有可能在不同的应用程序之间共享RDD？

浏览 1提问于2016-03-22得票数 4

回答已采纳

1回答

标签不呈现字符串"0“(Flex4.5)

、、、、

我正在编写一个自定义图表组件，其中。为了添加标签，我创建了一个spark标签并将其添加到屏幕上。尽管呈现了所有其他标签，但我注意到零标签根本不呈现。下面是我的代码： var invisibleTextField:TextField = new TextField(); var zeroLabel:spark.components.Label = new spark.components.Label(); zeroLabel.text = "0"; zeroLabel.name = "0Label"; invisibleTextField.text = "

浏览 0提问于2011-07-14得票数 1

1回答

黑斑羚还是以火花为执行引擎的蜂巢？

、、

我想设计从HDFS获取数据的Web。我想使用这些数据生成一些报告，这些数据存储在HDFS中。我有自己的自定义报告格式。我正在编写REST以获取数据。但是运行HIVE查询会产生延迟问题，因此我想要不同的方法来解决这个问题，我可以想到两个。使用IMPALA创建表。但我不确定对黑斑羚的休息支持。使用蜂巢，而不是先生，使用火花作为执行引擎。。 SPARK作业服务器提供REST支持，并使用SPARK SQL获取数据. 哪一种方法是合适的，还是有更好的方法？请任何人帮忙，因为我在这方面是很新的。

浏览 0提问于2017-03-09得票数 2

回答已采纳

1回答

如何在另一个模块中使用相同的spark会话

、、、、

我必须用两个任务在Airflow中运行两个模块。每个任务都有一个执行一些spark操作的PySpark模块。第二个模块使用在前一个会话中创建的数据帧并继续其操作。同样的SparkSession初始化，如何实现同样的效果？我尝试使用getActiveSession()，但由于任务1作业已完成，因此无法工作，因此当任务2运行时，会创建一个新的spark会话。 - [root@ ..dags]# cat tmp_spark_1.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName("

浏览 32提问于2021-11-23得票数 0

2回答

什么时候在星星之火上使用persist()不是实际的性能？

、、、

在努力提高代码性能时，因为我有许多作业失败(中止)，每当我需要在许多其他操作中使用相同的数据same时，我就考虑在Spark上使用persist()函数。在执行任务时，以及在Spark应用程序UI中的各个阶段，我觉得这样做并不总是最优的，这取决于分区的数量和数据大小。我不确定，直到我因为坚持阶段的失败而放弃了这份工作。我在质问persist() ，无论何时对数据文件执行许多操作，使用的最佳实践是否总是有效的?如果不是，则是，而不是？如何判断？更确切地说，我将介绍我的代码和中止作业的详细信息： #create a dataframe from another one df_transf_1

浏览 2提问于2019-02-12得票数 8

2回答

从mesos代理清除work_dir中的数据

、

我有一个spark集群，它以Mesos作为资源管理器运行。当某些spark作业失败时，mesos代理节点中work_dir内部的临时数据文件不会被删除。是否有任何配置可以自动清除mesos代理的work_dir中的数据

浏览 0提问于2018-06-12得票数 1

1回答

spark如何管理物理内存、虚拟内存和执行器内存？

、

由于我已经在Spark上工作了几天，我对spark内存管理感到困惑。我看到了诸如物理内存、虚拟内存、执行器内存、内存开销之类的术语，根据我目前的理解，这些值并没有正确地相加。有没有人能简单地用火花来解释这些事情？例如，我正在集群模式下运行如下配置的spark作业： spark_conf = SparkConf() \ .set("spark.executor.memory", "10g") \ .set("spark.executor.cores", 4) \ .set("spark.executor.instances&

浏览 82提问于2020-08-18得票数 0

2回答

为什么“n个任务的序列化结果(XXXX MB)”可能大于`spark.driver.memory`？

、、、、

我启动了一个具有以下设置的火花作业(除其他外)： spark.driver.maxResultSize 11GB spark.driver.memory 12GB 我正在调试我的pyspark作业，它一直给我错误： serialized results of 16 tasks (17.4 GB) is bigger than spark.driver.maxResultSize (11 GB) 因此，我在配置设置中将spark.driver.maxResultSize提高到了18 G。而且成功了！！现在，这很有趣，因为在这两种情况下，spark.driver.memory都

浏览 2提问于2016-07-17得票数 8

回答已采纳

1回答

在PySpark中使用推断模式读取csv时，DAG中没有交换操作

、、、

我正在用下面的代码读取一个csv文件 df = spark_session.read.option('header','true').option('inferSchema','true').csv('path to csv') 上面的代码是为每个作业创建一个阶段的两个作业。一个用于读取标头的工作，另一个用于推断架构。这是我能理解的。作业，即读取模式，只有一个阶段，有许多任务。我不明白为何只有一个阶段。我的理解是，Spark需要合并由单个任务推断的模式，才能获得最终的模式。此合并活动应该需要一个exchange操

浏览 5提问于2022-09-29得票数 0

回答已采纳

1回答

Java Spark程序中的Pyspark UDF

、、

有没有什么方法可以将在pyspark中创建的UDF用于Java Spark作业我知道有一种方法可以将Java UDF用于pyspark，但我正在寻找其他方法

浏览 0提问于2019-12-03得票数 0

2回答

Apache星图作业慢

、、

我一直在试验Apache，看看它是否可以用来为我们存储在Elasticsearch集群中的数据制作一个分析引擎。我已经发现，对于任何重要的RDD大小(即数百万条记录)，即使是最简单的操作也需要超过一分钟。例如，我制作了一个简单的测试程序： package es_spark; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apa

浏览 2提问于2017-12-18得票数 0

回答已采纳

1回答

Spark为Kinesis stream启动了多少消费者？

、、

我有一个在Mesos上运行的Spark集群(1.6.1)，其中有1个主服务器和4个从服务器。我正在运行的spark作业处理来自Kinesis Stream的数据。代码运行得很好，除了我可以看到Spark大量使用了两个从进程。经过更多的调查，我发现Kinesis流租赁只提供给一台机器，并且每个数据都会被另一台机器复制。有关详细信息，请参阅下面的Spark UI图像我的问题是，为什么Spark没有利用其他两个奴隶？Spark总是在最大值上只启动一个监听器吗？它依赖于Kinesis流中的分片数量吗？

浏览 13提问于2016-08-26得票数 0

1回答

Apache Spark:是否可以在spark作业中获取数据集计数？

有时，在集群中运行的一些Spark作业运行得太长，不是因为糟糕的优化，而是因为算法的糟糕逻辑。在大多数情况下，这是由于一些不必要的连接产生了太多的行造成的。通常，我们通过查看Spark执行计划来发现这样的作业，我们可以通过查看蓝色阶段标签中的“输出行数: xxx”来找到这样的连接。我想知道--有没有可能优化这个过程，并以某种方式自动通知程序员，作业在某些数据集中(在执行后)有太多的行？也许我们可以在日志中打印出来(不需要在代码中手动计算数据集的大小)？也许在运行作业之后，我们可以以某种方式获得执行计划的输出，并将其保存以供进一步调查？

浏览 4提问于2021-10-29得票数 0

1回答

为什么在dataproc中只有一个作业id，而在pyspark脚本中有多个操作？

、、、

火花作业的定义是：作业--由多个任务组成的并行计算，这些任务响应于火花操作(例如，保存、收集)；您将在驱动程序的日志中看到这个术语。那么，为什么每个spark-submit在dataproc控制台中只创建一个作业id？示例:下面的应用程序应该有两个火花作业 sc.parallelize(range(1000),10).collect() sc.parallelize(range(1000),10).collect()

浏览 3提问于2022-01-21得票数 2

回答已采纳

1回答

作业与错误消息失败

、

当节点重新启动时，作业将失败，其中包含以下消息： ImportError: No module named mlflow 我已经从Databricks集群UI安装了mlflow，但仍然面临这个问题。集群配置：Runtime 10.4 LTS Scala 2.12, Spark 3.2.1

浏览 11提问于2022-06-30得票数 1

回答已采纳

2回答

在apache火花生产场景中处理倾斜数据

、

谁能解释在Apache的生产中如何处理倾斜的数据？场景：我们使用"spark-submit"提交了spark作业，并且在spark中观察到很少有任务花费很长的时间，这表明存在偏差。问题： (1)我们应采取哪些步骤(重新划分、合并等)？ (2)我们是否需要终止作业，然后在jar中包含倾斜的解决方案并重新提交作业？ (3)能否通过直接从shell运行(合并)之类的命令来解决这个问题，而不杀死作业？

浏览 0提问于2018-06-25得票数 3

1回答

星星之火:从具有不同内存/内核的单个JVM作业中同时启动

、、、、

问题解释假设您有一个带有独立管理器的Spark集群，其中作业是通过客户端应用程序创建的SparkSession来调度的。客户端应用程序运行在JVM上。为了提高性能，您必须使用不同的信任来启动每个任务，请参见下面的作业类型示例。问题是。，那么你如何用不同的会话同时启动多个火花作业呢？在不同的会议上，我的意思是： spark.executor.cores spark.executor.memory spark.kryoserializer.buffer.max spark.scheduler.pool 等我的思想解决问题的可能方法：在相同的SparkS

浏览 2提问于2017-03-09得票数 1

回答已采纳