spark如何将训练任务均匀地分配给执行者？

Spark如何将训练任务均匀地分配给执行者？

Spark是一个开源的分布式计算框架，可以用于大规模数据处理和机器学习任务。在Spark中，任务的分配是通过调度器来完成的，它负责将任务分配给可用的执行者。

Spark的任务分配过程如下：

首先，Spark将任务划分为一系列的任务阶段（stage），每个阶段包含一组相互依赖的任务。这种划分是基于任务之间的依赖关系，以便能够并行执行独立的任务。
接下来，Spark将每个阶段的任务分成更小的任务单元，称为任务切片（task slice）。任务切片是可以独立执行的最小任务单元。
调度器根据可用的执行者资源和任务的优先级，将任务切片分配给执行者。调度器会尽量将任务均匀地分配给执行者，以实现负载均衡。
执行者接收到任务切片后，会执行相应的计算操作。一旦任务完成，执行者会将结果返回给驱动程序。

在Spark中，任务的分配和调度是由集群管理器（如YARN、Mesos或Standalone）来完成的。集群管理器负责管理集群中的资源，并将任务分配给可用的执行者。

对于训练任务的均匀分配，可以通过以下方式来实现：

数据切片：将训练数据切分为多个小的数据块，每个数据块包含一部分数据。这样可以将数据均匀地分配给执行者，以实现并行处理。
任务切片：将训练任务切分为多个小的任务单元，每个任务单元包含一部分计算操作。这样可以将任务均匀地分配给执行者，以实现负载均衡。
资源管理：合理配置集群管理器的资源分配策略，确保每个执行者都能够获得足够的计算资源。这样可以避免某些执行者负载过重，而其他执行者负载较轻的情况。

总结起来，Spark通过任务切片和资源管理来实现训练任务的均匀分配。通过合理的数据切片和任务切片，以及适当的资源管理策略，可以实现高效的分布式训练任务执行。

SparkConf和sparkContext的用途

apache-spark

sparkContext和sparkConf的用途是什么？寻找细节上的差异。超过下面的定义： Spark Context是任何spark应用程序的入口点，用于访问所有spark特性，并且需要一个包含所有集群配置和参数的sparkConf来创建Spark Context对象。

浏览 0提问于2020-05-02得票数 0

1回答

我需要一些提示来定义一个路径到一个目录中有很多文件在星火。我已经建立了一个独立的集群，其中一台机器作为工人，另一台机器作为主人，驱动程序是我的本地机器。我用python在本地机器上开发我的代码。我已经将所有文件复制到主文件和辅助文件，两台机器上的路径是相等的(如: /data/test/)。我已经设置了一个SparkSession，但是现在我不知道如何定义脚本中目录的路径。那么，我的问题是如何说Spark可以在上面目录中的两台机器上找到数据呢？我的另一个问题是如何处理像.mal这样的文件格式，如何在这样的文件中读取？谢谢你的提示！

浏览 0提问于2019-01-22得票数 0

回答已采纳

1回答

我在哪里运行spark - Standalone、Hadoop或Mesos

hadoop、apache-spark、hadoop-yarn、mesos

我正在学习Spark，但如果我必须在Hadoop/Yarn或Mesos上运行spark，我会感到困惑。如果我在Hadoop/Mesos上运行，会有什么性能提升吗？现在，我正在一个4节点集群上独立运行。有没有经验丰富的用户可以在这里提供一些指导？

浏览 0提问于2015-07-24得票数 1

1回答

Kafka员工如何分配管理资源限制(内存/核心)来分配任务？

apache-kafka、apache-kafka-connect

在Kubernetes中，可以显式地指定容器的资源限制。在启动Kafka连接器时，您请求最大任务，但是connector集群如何知道如何分配负载？它认为任务是平等的吗？它使用内部度量吗？ Apache文档和confluent文档没有明确说明，但Confluent建议如下，这将表明连接工作人员没有资源管理：资源限制在很大程度上取决于工作人员运行的连接器类型，但在大多数情况下，用户在单个计算机上并发运行工作人员时应该知道CPU和内存界限。此外，集群部署似乎需要外部资源管理器来处理工作人员的故障转移。卡夫卡连接工人可以通过多种方式部署，每个人都有自己的利益。当所有状态都存储在Kaf

浏览 1提问于2021-01-21得票数 1

2回答

集群中MapReduce和Spark作业的资源分配

hadoop、apache-spark、mapreduce、hadoop-yarn

我无法理解为Map Reduce和Spark作业分配资源的内部机制。在同一个集群中，我们可以运行Map Reduce和Spark作业，但是对于运行map reduce作业，内部资源管理器将为作业分配可用的资源，如数据节点和任务跟踪器。在内部执行我所需的N个数的映射器和减速器。当涉及到Spark上下文时，它需要工作节点和执行器(内部为JVM)来计算程序。这是否意味着Map Reduce和Spark作业将有不同的节点？如果不是，任务跟踪器和执行器之间的区别将如何发生。集群管理器将如何识别Hadoop和Spark作业的特定节点。有没有人能在这里启发我。

浏览 1提问于2017-06-10得票数 1

1回答

星星之火:如果已经使用‘--py-files`’选项传递了源代码，那么奴隶应该有源代码吗？

python、apache-spark、amazon-ec2、pyspark

我有一个运行ec2应用程序的spark-submit集群，在使用--py-files运行spark-submit时，我将使用压缩的python文件传递源代码doe。如果我们已经在传递文件，那么从服务器是否需要应用程序代码？

浏览 0提问于2019-01-14得票数 0

回答已采纳

1回答

Apache Helix vs YARN

java、hadoop、cluster-computing、hadoop-yarn

Apache Helix和Hadoop YARN (MRv2)之间的区别是什么。有谁对这两种技术都有经验吗？谁能给我解释一下Helix相对于YARN的优缺点，以及为什么LinkedIn开发了他们自己的集群管理而不是使用YARN？提前感谢Tobi

浏览 0提问于2013-05-06得票数 17

回答已采纳

1回答

应用程序母版或群集管理器是否启动容器/执行者-火花？

apache-spark

让我们说，我们有一个火花作业运行在集群模式，其中集群管理器是纱线。集群模式用户向集群管理器提交一个预编译的JAR、Python .集群管理器告诉特定的节点管理器启动应用程序母版。是火花驱动程序，然后在应用程序母版上运行。驱动程序将包含转换和操作的用户代码转换为一个名为DAG的逻辑计划。然后将DAG转换为物理执行计划应用程序主程序，然后与集群管理器通信并协商资源。请求资源(如首选执行器位置和容器数量)。此时，集群管理器是分配纱线容器还是应用程序主服务器分配纱线容器？集群管理器是否也会创建火花执行器，或者应用程序主程序是否会这样做？

浏览 0提问于2020-05-31得票数 0

回答已采纳

1回答

spark.dynamicAllocation.enabled是如何影响工作顺序的？

apache-spark

需要了解何时使用spark.dynamicAllocation.enabled --使用它的优点和缺点是什么？我排队等待工作的提交。上午9:30 ->作业A在启用dynamicAllocation的情况下提交。上午10:30 ->作业B在启用dynamicAllocation的情况下提交。注意:我的数据是巨大的(对10 on的数据进行转换处理)。哪一份工作在分配执行者给工作A或工作B方面有优先权，以及火花如何协调b/w 2申请？

浏览 2提问于2017-05-27得票数 1

回答已采纳

1回答

spark executors是如何创建的？

apache-spark、pyspark

我正在试图理解spark executors是如何推出的，是由谁推出的。我的理解是，Driver将负责一切，特别是SparkSession.builder将创建到集群管理器和执行器的连接。似乎构建器也会配置执行器。这是否意味着执行器在builder.getOrCreate()期间由驱动程序启动 builder.config("spark.executor.cores", 5) builder.config("spark.executor.memory", "1g")

浏览 1提问于2021-02-25得票数 0

1回答

Spark组件和Spark生态系统之间有联系吗？

apache-spark、apache-spark-sql、spark-streaming、executor、sparkcore

我阅读了集群模式概述(链接：)，我想知道如何将驱动程序、执行器和工作节点等组件映射到Spark生态系统的组件上，如Spark核心、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX和调度/集群管理器。这些组件中的哪些是用于驱动程序、执行器和工作节点的？所以基本上我的问题是，在Spark的组件(图1)和Spark的生态系统(图2)的这两个图之间是否存在联系。如果是这样的话，谁能给我解释一下什么属于驱动程序/执行器/工作节点

浏览 11提问于2021-11-30得票数 0

1回答

如何激发纱线的动态资源分配工作(关于NodeManagers)？

apache-spark、hadoop-yarn

让我们假设我有4 NM，我已经在纱线-客户端模式下配置了火花。然后，我将动态分配设置为true，以便根据工作负载自动添加或删除执行器。如果我的理解是正确的，每个火花执行器作为一个纱容器运行。那么，如果我再加上更多的NM，执行者的数量会增加吗？如果我在Spark应用程序运行时删除了NM，那么该应用程序会发生什么情况？我可以根据其他指标添加/删除执行者吗？如果答案是肯定的，那么有一个函数，最好是在python中，可以这样做吗？

浏览 10提问于2017-06-20得票数 1

1回答

Apache Spark DAGScheduler数据流

apache-spark、scheduled-tasks、scheduler

我正在尝试理解Apache Spark调度程序到底是如何工作的。为此，我设置了一个包含一个master和两个worker的本地集群。我只提交了一个应用程序，它简单地读取4个文件(2个小文件(~10MB)和2个大文件(~1.1 the ))，连接它们并收集结果。另外，我在内存中缓存了这两个小文件。我正在使用FIFO.I运行独立的集群模式，我知道阶段是如何形成的，但我不知道数据流是如何确定的(箭头)。当我查看SparkUI时，我注意到每一次，即使阶段以相同的方式形成，箭头(我猜是数据流和控制流)也是不同的。这就像是调度器不确定地工作。我已经读过Jacek Laskowski的书中的相关章节(关

浏览 0提问于2018-02-27得票数 0

1回答

Spark内核笔记本之间的集群共享

amazon-web-services、apache-spark、jupyter-notebook、amazon-emr、amazon-sagemaker

我希望从概念上理解在Spark内核(如SparkMagic)上运行的几个Jupyter笔记本如何共享一个工作节点集群。如果用户A在计算单元中持续或缓存了一个大的RDD (无论是在磁盘上还是在内存中)，然后出去度周末，但没有停止他/她的笔记本，这是否会降低其他用户在用户A的笔记本运行时运行其作业的能力？也就是说，共享集群的所有Spark notebooks将能够同时提交作业(不必按顺序运行)，但资源将被划分，对吧？这是一个一般性的问题，但对于我们来说，我们在美国地区的AWS Sagemaker和EMR环境上运行，以防它有所不同。

浏览 20提问于2021-01-25得票数 1

3回答

Apache Spark - spark中的内部作业调度程序如何定义什么是用户，什么是池

scala、hadoop、apache-spark、bigdata、job-scheduling

我很抱歉在这里有点泛泛，但我对spark内部的作业调度是如何工作的感到有点困惑。从文档中，我了解到它是Hadoop公平调度器的某种实现。我无法理解这里的用户到底是谁(是linux用户、hadoop用户还是spark客户端？)。我也无法理解这里的池是如何定义的。例如，在我的hadoop集群中，我将资源分配给了两个不同的池(让我们称它们为team 1和team 2)。但是在spark集群中，不同的池和其中的用户不会实例化自己的spark上下文吗？这再次让我产生了疑问，当我将属性设置为spark.scheduler.pool时，我应该传递哪些参数。我对driver如何实例化spark上下文，然后

浏览 2提问于2015-04-24得票数 6

2回答

Spark scheduler vs Spark Core？

apache-spark、parallel-processing、scheduled-tasks、scheduler

我发现Apache Spark是为了教学目的，我对如何管理任务调度有点困惑。我发现Spark有3个调度选项: Spark Scheduler，YARN Scheduler和MESOS。但是我也读到Spark Core管理任务的调度。所以我想我没有明白这一点：如果Spark Core管理任务的调度，为什么我们还需要Spark Core下面的调度器？那么，这些任务并行执行意味着什么呢？这是指在多个工作者上并行，还是在同一个工作者上并行？

浏览 18提问于2020-12-19得票数 0

2回答

在任务管理器之间均匀分配Flink运算符

apache-flink、flink-streaming

我在一个由15台机器组成的裸机集群上制作了一个Flink流应用程序的原型。我使用的是yarn-mode，有90个任务槽(15x6)。该应用程序从单个Kafka主题读取数据。Kafka主题有15个分区，因此我也将源运算符的并行度设置为15。然而，我发现Flink在某些情况下会将2-4个使用者任务实例分配给同一个任务管理器。这会导致某些节点变得网络受限( Kafka主题服务于大量数据，而机器只有1G网卡)和整个数据流中的瓶颈。有没有办法“强制”或以其他方式指示Flink在所有任务管理器之间均匀分配任务，比如循环？如果没有，有没有办法手动将任务分配给特定的任务管理器插槽？

浏览 0提问于2018-08-10得票数 2

1回答

在Amazon上使用Spark时如何分配驱动程序内存和执行器内存

amazon-web-services、apache-spark、amazon-ec2、amazon-emr、databricks

我使用AWSEMR5.2实例m4.2x和10个节点运行我的Spark应用程序，使用Spark2.0.2。我使用了maximizeResourceAllocation=true的属性。我在spark-defaults.conf中看到了以下属性： spark.executor.instances 10 spark.executor.cores 16 spark.driver.memory 22342M spark.executor.memory 21527M spark.default.parallelism

浏览 2提问于2017-01-25得票数 2

3回答

改革和行动的火花工作在哪里完成？

apache-spark、action、transformation

我一直在用Spark + Python来完成一些工作，这很好，但我有一个问题：改革和行动的火花工作在哪里完成？转换工作是在火花管理器(或驱动程序)中完成的，而操作工作是在工人(执行者)中完成的，还是两者都在工人(执行者)中完成？

浏览 10提问于2016-10-09得票数 4

回答已采纳

2回答

星火独立，纱线和本地模式有什么区别？

apache-spark

火花独立：在这种模式下，我意识到您在本地计算机上运行主节点和工作节点。这是否意味着你在我的本地机器上运行纱线？自从我安装Spark以来，它是伴随Hadoop而来的，而且通常纱线也会随Hadoop一起发货，对吗？在这种模式下，我基本上可以模拟一个完整集群的较小版本。火花本地模式：这是我也感到困惑的部分。要在这种模式下运行它，我执行val conf = new SparkConf().setMaster("local[2]")。在这种模式下，它不使用任何类型的资源管理器(如纱线)，对吗？就像这样，只需在您提供给"local[2]"\的线程数中运行Spark

浏览 1提问于2016-10-13得票数 38

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark如何将训练任务均匀地分配给执行者？

相关·内容

SparkConf和sparkContext的用途

如何在Apache独立集群中设置文件路径？

我在哪里运行spark - Standalone、Hadoop或Mesos

Kafka员工如何分配管理资源限制(内存/核心)来分配任务？

集群中MapReduce和Spark作业的资源分配

星星之火:如果已经使用‘--py-files`’选项传递了源代码，那么奴隶应该有源代码吗？

Apache Helix vs YARN

应用程序母版或群集管理器是否启动容器/执行者-火花？

spark.dynamicAllocation.enabled是如何影响工作顺序的？

spark executors是如何创建的？

Spark组件和Spark生态系统之间有联系吗？

如何激发纱线的动态资源分配工作(关于NodeManagers)？

Apache Spark DAGScheduler数据流

Spark内核笔记本之间的集群共享

Apache Spark - spark中的内部作业调度程序如何定义什么是用户，什么是池

Spark scheduler vs Spark Core？

在任务管理器之间均匀分配Flink运算符

在Amazon上使用Spark时如何分配驱动程序内存和执行器内存

改革和行动的火花工作在哪里完成？

星火独立，纱线和本地模式有什么区别？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐