同一组任务在Spark作业中的多个阶段中重复

我正在运行一个虚拟的spark作业，它在每次迭代中执行完全相同的一组操作。下图显示了30次迭代，其中每个作业对应于一个迭代。可以看到，除了作业0、4、16和28之外，持续时间始终在70ms左右。第一次加载数据时，作业0的行为是预期的。但当我单击作业16进入其详细视图时，持续时间仅为64ms，这与其他作业类似，此持续时间的屏

浏览 2提问于2017-06-26得票数 1

5回答

申请、工作、阶段和任务的概念是什么？

我的理解对吗？帮助想要提高这种理解。

浏览 3提问于2017-02-16得票数 73

3回答

Spark如何在内部工作

我知道Spark可以使用Scala、Python和Java来操作。此外，RDDs还用于存储数据。但是请解释一下，Spark的架构是什么，它是如何在内部工作的。

浏览 0提问于2015-06-07得票数 38

1回答

星火代码在作业、阶段和任务中的分布

、、

根据我的理解，整个作业中的每一个动作都被转换成作业，而作业中的每一个洗牌阶段都被转换成一个阶段，每个阶段的每个分区都被转换成任务。请告诉我，如果我错了，我无法得到任何实际的定义。

浏览 0提问于2017-08-29得票数 0

回答已采纳

1回答

如何在Spark中并行读写多个表？

、、、

在我的Spark应用程序中，我尝试从RDBMS读取多个表，执行一些数据处理，然后将多个表写入另一个RDBMS，如下所示(在Scala中)：myDF3.write.mode("append").jdbc(myurl2, outtable3, new java.util.Properties) 我知道从一个表中读

浏览 0提问于2015-08-25得票数 8

1回答

有没有可能让Spark在一个单独的执行器上运行整个任务集？

、、

我在本地集群上运行单个spark作业(1 master-2 2workers/executors)。据我所知，作业的所有阶段都被拆分成任务。每个阶段都有自己的任务集。此TaskSet的每个任务都将在本地群集的一个执行器上调度。我想让Spark的TaskSetManager在同一个(

浏览 2提问于2018-03-08得票数 0

2回答

星火历史服务器UI作业部分中的“活动作业”是什么

、、

我知道，历史服务器显示已完成的星火应用程序。您能帮我理解上面图片中的“主动工作”、“持续时间”和“阶段:成功/总计”项目吗？

浏览 5提问于2018-09-01得票数 2

回答已采纳

1回答

如何使用多个小文件来加速spark的镶木地板阅读器

、、、

我正在读取一个spark数据帧，该数据帧存储在本地集群的HDFS上，格式为parquet。拼图数据被拆分到大约96,000个单独文件中。我使用的是pyspark v2.2.0。当我运行spark.read.parquet(data_root)时，奇怪的事情发生了: spark顺序地产生一系列作业，每个作业大约有2000个任务。它产生了48个这样的工作，每个工作都有一个阶段

浏览 0提问于2017-12-15得票数 1

3回答

如何并行运行多个火花作业？

因此，我必须并行运行多个作业，以便所有查询同时启动。如何并行运行多个作业？

浏览 0提问于2018-03-30得票数 21

2回答

公平的调度模式能使从不同主题并行运行的星火流作业吗？

、、

在公平共享下，星火以“循环”的方式在任务之间分配任务，这样所有的作业都能获得大致相等的集群资源份额。这意味着在长作业运行时提交的短作业可以立即开始接收资源，并且仍然可以获得良好的响应时间，而无需等待长作业完成。根据这一点，如果我有来自多个线程的多个作业，以防火花流(每个线程有一个主题)，那么如果集群中有足够<e

浏览 2提问于2017-06-06得票数 2

1回答

包含多个代理的Azure DevOps 2019部署组:如何将运行的部署限制为一个代理？

、

我有多个(30+)发布定义，具有类似的阶段(例如，每个发布定义都有一个测试阶段，其中部署组作业以测试服务器为目标)。我希望每个服务器运行多个代理，从而运行每个部署组，但在我看来，相同部署组中的每个代理获取相同的任务，因此每个代理只运行一次相同的作业。设置并行部署没有帮助，因为代理试图同时运行相同的部署，这将导致与复制任务

浏览 0提问于2019-04-01得票数 1

回答已采纳

1回答

Spark将活动阶段设置为1

我正在使用spark dataframe处理一个大型查询，它需要很长时间才能完成。当我查看活动阶段时，spark正在处理多个阶段。我只是想知道是否有配置将运行/活动阶段的数量设置为1，以便spark处理将专注于1个活动阶段。

浏览 0提问于2019-01-15得票数 0

1回答

Spark execution - spark执行作业和spark操作之间的关系

我有一个关于火花执行的问题。我的问题是哪一个是正确的-一个作业集合对应于一个动作，还是每个作业对应一个动作。这里的job是指可以在Spark execution UI中看到的作业。谢谢。

浏览 1提问于2019-10-30得票数 1

1回答

Apache-Spark内部作业调度

、、、

我偶然发现了Spark中的一个特性，它允许您在一个spark context中调度不同的任务。我想在一个程序中实现这个特性，在这个程序中，我将输入的RDD(from a text source)转换成一个键值RDD [K,V]，然后生成一个复合键值RDD [(K1,K2),V]和一个包含一些特定值的过滤进一步的流水线涉及在RDDs和join操作上从MLlib调用一

浏览 0提问于2015-04-25得票数 1

1回答

spark.dynamicAllocation.enabled是如何影响工作顺序的？

需要了解何时使用spark.dynamicAllocation.enabled --使用它的优点和缺点是什么？我排队等待工作的提交。上午9:30 ->作业A在启用dynamicAllocation的情况下提交。哪一份工作<em

浏览 2提问于2017-05-27得票数 1

回答已采纳

2回答

为什么在我的spark工作中有这么多任务？默认获取200个任务

、、、、

我有一个spark作业，它从hdfs中获取一个包含8条记录的文件，执行简单的聚合并将其保存回hdfs。当我这样做的时候，我注意到有成百上千的任务。我也不确定为什么会有多个工作要做？我认为工作更像是行动发生的时候。我可以推测原因--但我的理解是，在这段代码中，它应该是一个作业，它应该被分成几个阶段，而不是多个作业</em

浏览 3提问于2016-06-11得票数 23

回答已采纳

1回答

如何避免火花中的ExecutorFailure错误

、

如何在执行星火作业时避免执行器故障。我们使用Spark1.6版本作为Cloudera 5.10的一部分。通常情况下，我会犯错误。

浏览 3提问于2017-11-27得票数 1

回答已采纳

1回答

将Azure devops发布管道(经典编辑器)输出变量传递给同一阶段的多个作业或外部的多个阶段

、、、

我使用的是发布管道经典编辑器，并且需要将任务中生成的输出变量传递给同一阶段或外部阶段的多个作业。目前，这个输出变量只能在同一个任务中使用，我必须在多个任务和阶段中编写相同的任务，我觉得这是一种冗余。

浏览 1提问于2020-06-01得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云