对于大型作业，Spark只运行一个执行器

文章/答案/技术大牛

发布

1回答

jdbc源程序中的火花执行器不增加

在尝试使用spark连接读取大型oracle表时，只有一个执行器正在调用，甚至启用了dynamica分配，而作业也停留在那里1)对于使用动态资源分配运行spark提交应用程序的小型表，它正在创建15个执行器，并在2分钟内完成100条记录的操作 2)对于也使用相同配置的大型表，但作业只</e

浏览 0提问于2019-07-25得票数 0

回答已采纳

1回答

、

我有一个四节点hadoop集群(Mapr)，每个节点都有40内存。我的spark启动参数如下：现在，当我运行包含100K记

浏览 10提问于2016-09-01得票数 1

1回答

无法从星星之火中的java代码启动作业；初始作业未接受任何资源

、、

你好，我在JAVA中的星火配置是： .config("spark.driver.host", "192.168.0.103") .config("spark.dynamicAllocation.enabled", "false") .config("

浏览 2提问于2017-02-04得票数 0

回答已采纳

2回答

星火如何独立实施资源分配

我一直在阅读Spark的源代码，但我仍然无法理解Spark是如何独立实现资源隔离和分配的。例如，Mesos使用LXC或Docker来实现容器，以限制资源。那么，如何独立地实现这一点。例如，我在一个执行器中运行了10个线程，但是Spark只给了执行器一个内核，那么如何保证这10个线程只在一个cpu内核上运行。经过下面的测试代码，发现火花独立资源分配在某种程度上是假的。我只有

浏览 10提问于2016-11-26得票数 3

回答已采纳

2回答

集群中MapReduce和Spark作业的资源分配

、、、

我无法理解为Map Reduce和Spark作业分配资源的内部机制。在同一个集群中，我们可以运行Map Reduce和Spark作业，但是对于运行map reduce作业，内部资源管理器将为作业分配可用的资源，如数据节点和任务跟踪器。当涉及到Spark上下文时，它需要工作节点和执行器(内部为JVM)来计算程序。这是否意味着Map Reduce和Spark

浏览 1提问于2017-06-10得票数 1

2回答

为什么Spark不在执行者之间重新分配任务？

、、

我正在运行一个spark作业，它已经完成了99%。最后的1%需要很长时间，所以我检查了工作跟踪器。如截图所示，我们可以看到一些执行器仍然有几个活动任务，而一些执行器没有任务。为什么Spark不重新分配任务？谢谢!

浏览 3提问于2015-08-26得票数 0

1回答

在纱线上运行多个类似的火花提交作业

、、、

我有多个火花提交作业，这些作业需要作为AWS集群上的一个步骤提交，所有步骤的数据输入都是相同的，这些步骤目前位于s3桶中，输出也在S3上，所有步骤都需要并行执行。目前AWS EMR不支持火花提交的并行执行，但是有一种方法是通过将EMR的纱线调度器更改为公平的调度程序，但是这种方法的问题是，我们需要手动为执行器定义核心/Memory，这是一种开销。

浏览 1提问于2018-04-10得票数 3

回答已采纳

1回答

spark web UI符号

我在我的一端运行示例作业，spark作业UI显示总正常运行时间为26秒，但当我将作业的持续时间列加起来时，它只有17-18秒，我应该依靠它来确定运行作业执行逻辑的总时间.I不关心启动和停止集群的时间.Is我的spark配置如下所示： val conf = new SparkConf().setAppName("Metrics").setMaster("spark://

浏览 1提问于2017-01-03得票数 0

1回答

每个节点上的Spark分区

、、、

我有一个spark集群(DataProc)，有一个主进程和4个工作进程(2个可抢占进程)，在我的代码中，我有一些类似这样的东西： JavaRDD<Signal> rdd_data = javaSparkContext.parallelize我不明白为什么spark只使用2个核心，将我的数组分成2个分区，而不使用16个核心。我需要设置分区的数量吗？提前感谢您的帮助。

浏览 18提问于2019-06-26得票数 1

回答已采纳

1回答

为什么spark.executor.instances不能工作？

我使用的是40 r4.2x大型奴隶和一个具有相同类型主机的主机。r4.2xlarge有8个内核，内存为61 has。给定的设置如下： spark.dy

浏览 0提问于2018-07-25得票数 2

回答已采纳

1回答

AWS EMR容器未使用所有可用内核

、、

我有一个EMR集群，它正确地派生了6个执行器，每个执行器有4个核心。当spark作业在集群上运行时，它创建了6个容器，每个容器只分配了1个核心，如何指定每个容器分配的核心数量？相关配置：spark.executor.cores: 4 yarn.scheduler.minimum.allocation.vcores: 4

浏览 0提问于2021-08-06得票数 0

1回答

AWS Glue -作业监视:作业执行、活动执行器和最大需要的执行器未显示

、、、、

我在AWS Glue中设置了一个ETL作业，设置如下: Glue v.3.0、Pythonv.3、Sparkv.3.1和支持10个工人和作业度量的工人类型G.1X。当我查看作业完成后的作业指标时，我在作业执行中看到:活动执行器、已完成阶段&只显示已完成阶段的数量的最大需要的执行器。火花会话已经根据下面的代码设置。我还将包括内存配置文件和CPU负载的一个片段，以防有帮助。#Solves the issues wi

浏览 5提问于2022-03-30得票数 0

2回答

理解mesos上火花作业的资源分配

、

我正在研究星火的一个项目，最近我从使用Spark独立应用到用于集群管理的Mesos。现在，我发现自己对在新系统下提交职务时如何分配资源感到困惑。现在，我可以指定--total-executor-cores和--executor-memory，但是文档告诉我，--exeuctor-cores只适用于Spark独立和Spark，因此很难指定分配给每个执行者和资源的总数这将与UI一致，表示我的框架(作业)有:15个活动任务、240个CPU和264 15内存。 264/15=17.6，

浏览 2提问于2015-12-11得票数 6

回答已采纳

1回答

火花纱簇仍未得到充分利用

、、

使用Microsoft，我有一个包含2个主节点和50个工作节点的集群。所有节点都有8个核心和64 GB内存。sc = spark.sparkContext我的目标是同时处理所有运行一个名为gensim的Python包，使用读取的两个文件的内容执行NLP任务。每个执行器得到3个

浏览 0提问于2018-05-25得票数 0

1回答

谁能让我知道如何在火花提交工作中决定执行者的记忆和执行者的数目。核数的概念是什么？

如何确定火花提交作业中的-执行者内存和-num-执行者.核数的概念是什么？此外，集群和客户端部署模式之间也有明显的区别。如何选择部署模式

浏览 3提问于2017-07-23得票数 0

2回答

为什么迭代RDD后局部变量值不可见？

、

嗨，我正在用scala为apache-spark写代码。我的局部变量"country“值在rdd迭代完成后没有反映出来。import org.apache.spark.sql.SparkSession va

浏览 1提问于2019-07-16得票数 0

2回答

Spark正在删除作业开始时的所有执行器

、

我正在尝试配置一个spark作业，在Dataproc集群上使用固定资源运行，但是在作业运行6分钟后，我注意到除了7个执行器之外，所有的执行器都被删除了。当我检查作业详细信息中的时间线时，它显示除了7个执行器之外的所有执行器都在6分钟标记时被删除，并显示消息Container [really long number] exited from explicit我正在运行的命令是： gc

浏览 39提问于2021-04-22得票数 1

2回答

为什么缓存小火花RDDs在Yarn中占用很大的内存分配？

、、、

缓存的RDDs (总共8)并不大，只是围绕着30G，然而，在Hadoop上，它表明Spark应用程序占用了大量内存(没有正在运行的活动作业)，即1.4T，为什么这么多？为什么它显示了大约100个执行器(在这里，即vCores)，即使没有活动作业运行？另外，如果缓存的RDDs存储在100个执行器中，那么这些执行器是否被保存，并且不再有其他Spark应用程序可以使用它们来运行任务？换句话来说:在<em

浏览 2提问于2020-12-22得票数 3

回答已采纳

1回答

火花缭乱的莱文史汀会合在同一舞台上

、、、、

我想执行一个基于Levenshtein距离的连接。 data=broadcast(data) df=siren.join(spk, 1-(fn.levenshtein(data["description_nom"fn.length(siren["denominationUnit

浏览 2提问于2021-02-11得票数 0

1回答

在包含2个节点的集群中，spark作业在哪里运行，但是spark提交配置可以轻松地容纳在单个节点中？(群集模式)

、、、

spark集群有2个工作节点。节点1: 64 GB，8核。节点2: 64 GB，8核。现在，如果我在集群模式下使用spark-submit提交一个spark作业，其中有2个执行器，每个执行器的内存为32 GB，4个核心/执行器。现在我的问题是，由于上面的配置可以在一个节点上运行，spark会使用两个工作节点运行它，还是只在一个节点上<e

浏览 7提问于2019-07-14得票数 1

点击加载更多

jdbc源程序中的火花执行器不增加