如果总核数保持一致，如何选择executor个数和每个executor核个数？

文章/答案/技术大牛

发布

2回答

apache-spark、parallel-processing、executor

假设我正在使用一个具有2个i3.metal实例的集群，每个实例都有512GiB内存和72个vCPU核心()。如果我想使用所有的核心，我需要对执行器和每个执行器的核心进行一些配置，这样就可以得到144个核心。这似乎有很多选择；例如，我可以有72个执行器，每个执行器有2个核心，或者我可以有36个执行器，每个执行器有4个核心。无论哪种方式，我最终都会得到相同数量的内核和每个内核相同的内存量。我如何在这两种

浏览 37提问于2019-11-15得票数 1

1回答

配置火花应用程序参数的最佳启动方式是哪一个？

apache-spark、pyspark

可用执行者数=(总核/num-核-每个执行者)= 150/5 = 30 每个节点的执行者数考虑另一个示例，其中集群确认为:6个节点、25个核心节点和每个节点125 GB内存(例如来自)。推荐的配置是：--num-executor 30 --executor-<e

浏览 2提问于2019-01-24得票数 1

1回答

执行者能在火花中共享核心吗？

memory、parallel-processing、apache-spark、pyspark、mesos

在配置火花作业时，我有时会看到有人建议每个执行器的核数大于核总数除以执行器的数量。值得注意的是，在这个中，@0x0FFF建议如下：如果我们计算执行器核心的总数，就会得到4 cores per executor * 4 executors total = 16 cores total。然而，在问题的开头，它说：“我有一个NameNode

浏览 3提问于2015-12-12得票数 1

回答已采纳

1回答

用缓存扩展堆内存

apache-spark、pyspark

容器对运行执行器的最大内存大小由spark.executor.memoryOverhead、spark.executor.memory、spark.memory.offHeap.size和spark.executor.pyspark.memory编辑使用更大的执行程序(两次内存和两次内核)也可以弥补这一点。

浏览 5提问于2021-03-08得票数 3

回答已采纳

4回答

更改Shell的执行器内存(和其他信任)

apache-spark

如何更改的执行器内存(和其他信任)？特别是，我想给平底鞋火花壳，类似-火花-核心-max=12，当我启动它，以便我的工作在火花外壳将使用这些配置设置。

浏览 4提问于2014-04-09得票数 37

回答已采纳

1回答

是什么控制了一个应用程序拥有多少星团？

resources、apache-spark

在用于静态分区的docs 的这一页中，它说“使用这种方法，每个应用程序都会获得它可以使用的最大资源数量”。在另一个类似的注意事项上，是否有办法改变每个作业或任务级别上所要求的内存？

浏览 3提问于2015-01-14得票数 10

回答已采纳

2回答

从csv文件的大型集合中将记录插入到表中

apache-spark、hive、hiveql

每个文件的大小从几个KBs到250 KBs不等。我需要将这些csv文件的值插入一个名为RECORD的表中。在插入时，我还需要参考其他一些表(参数和FRAME_RATE)。所以，我把executor.memory提高到了4g。失败。我把executor.memory增加到6g。失败。最后，我把spark.executor.memory提高到了12g。成功。将spark.executor.memory增加到12g，每个节点只产生一个执行器，因此只有6个执行器。$apache

浏览 3提问于2017-06-12得票数 0

8回答

Apache Spark:内核数量与执行器数量

hadoop、apache-spark、hadoop-yarn

我正在尝试理解在YARN上运行Spark作业时核心数和执行器数之间的关系。测试环境如下：网络:1 1GbSpark19G --executor-cores 7 --num-executors 3 (每个数据节点的执行器，使用与cores)--master yarn-client --execut

浏览 262提问于2014-07-08得票数 220

2回答

优化Spark和纱线配置

apache-spark

我们有一个由4个节点组成的集群，具有上述特征：Spark作业在处理过程中花费了很多时间，知道我们的作业是从RStudio运行的，而我们仍然有很多内存未被利用，我们如何优化这段时间。

浏览 0提问于2017-09-12得票数 0

1回答

如何计算火花作业中核心、执行器、内存的编号

scala、apache-spark

--executor-memory =? --num-executors =?

浏览 1提问于2019-02-07得票数 0

1回答

使用Direct Kafka API运行spark流媒体应用所需的最佳资源是什么？

python、pyspark、apache-kafka、spark-streaming

我使用直接的Kafka API以1分钟的批处理间隔运行我的spark流媒体应用程序，并在我的应用程序代码中使用Pandas和Pyspark。下面是我的集群配置:3个数据节点，每个数据节点具有8核、12 my的容量。我已经提供了如下参数的spark-submit作业，--deploy-mode cluster--total-executor-cores如果我在申请处理的任何阶段错了，请纠正我？

浏览 14提问于2017-08-28得票数 1

1回答

spark.executor.cores Vs spark.executor.instance我应该增加哪一个？

pyspark

为了并行化spark作业，可以同时增加内核数量和执行器实例数量。这里的权衡是什么?应该如何选择这两个配置的实际值？

浏览 1提问于2020-06-01得票数 0

1回答

在纱线模式下，是否应该将Apache的执行器核心数设置为1？

apache-spark、hadoop-yarn、apache-spark-2.0

我正在运行一个处理集群上数百万数据的应用程序，其中每个200 data nodes都有14 cores。当我在纱线上使用2 executor-cores和150 executors时，它运行得很好，但是集群管理员之一要求我使用一个执行器核心。他指给我看Apache上的这个页面，其中说executor-core的默认值是1表示纱线。如果执行器使用1核心，不是单线程吗？致以亲切的问候，

浏览 1提问于2019-08-10得票数 1

回答已采纳

2回答

Kubernetes上的火花:执行者吊舱默默地被杀死

apache-spark、kubernetes

豆荚会突然停止计算，然后被直接移除，因此它们甚至不会停留在Error状态，从而无法挖掘和排除故障。他们就这么消失了。我只使用一个执行器启动作业，并在executor上执行了一个kubectl logs -f，并观察了驱动程序的输出(在客户端模式下运行)。对于4GB内存和默认内存拆分设置，40%是1400 40。我能以某种方式限

浏览 1提问于2020-08-18得票数 5

回答已采纳

1回答

Apache火花的最优内存分配

apache-spark

我是个新手，spark.driver.memory、spark.executor.memory和spark.driver.maxResultSize的含义对我来说还不太清楚。

浏览 2提问于2017-07-16得票数 1

2回答

火花执行器、驱动程序、执行器核心、执行器内存的值

apache-spark

如果集群上没有运行应用程序，如果要提交作业，那么Spark、executor核心、executor内存的默认值是多少？如果我们想要计算要提交的作业所需的火花执行器、执行器核心、执行器内存的值，您将如何做到这一点？

浏览 4提问于2017-10-07得票数 1

3回答

SimpleAsyncTaskExecutor只触发8个线程

java、multithreading、spring-boot、asynchronous

我试图通过使用默认的SimpleAsyncTaskExecutor来理解Spring中@异步的行为(在这里，我没有明确地定义任何Executor )。但是，上面的代码会导致提交的前8个任务开始，其余的任务正在等待正在运行的任务完成，以便被捕获和执行。

浏览 0提问于2019-09-19得票数 2

回答已采纳

1回答

spark-提交标准以设置参数值

apache-spark

spark-submit --deploy-mode cluster --name 'CoreLogic Transactions Curated ${var_date}' \/etl/scripts/corelogic/transactions/corelogic_transactions_curated.py\ --from_d

浏览 23提问于2021-01-20得票数 0

2回答

Java Fork/Join与多线程在多核世界中的应用

java、multithreading、multicore、executorservice、fork-join

假设每个端点返回一个数字。把这个简单的故事记在心里。我有两个选择：如果他们被安排在同一个核心上，那么我们就有了使用不足的核心问题。如果他们被安排

浏览 2提问于2015-08-24得票数 1

3回答

执行器ScheduledThreadPool“更多”线程池的影响是什么？

java、multithreading、threadpool、executorservice、threadpoolexecutor

我正在实例化我的Executor类，如下所示； executor.scheduleAtFixedRate(assignedToMeRunnable, 2, refreshTime, TimeUn

浏览 7提问于2018-01-07得票数 1

回答已采纳

点击加载更多