在一个主spark作业中启动多个spark作业

是通过Spark的子任务（subtask）机制来实现的。子任务是将一个大的作业划分为多个小的作业单元，每个子任务可以在独立的Executor上运行。

启动多个spark作业的好处是可以并行处理多个任务，提高作业的整体执行效率。同时，通过合理划分作业，可以更好地利用集群资源，提高资源利用率。

在Spark中，可以使用以下方法来启动多个spark作业：

使用Spark的submit方法：可以通过编写一个主程序，在主程序中使用Spark的submit方法来启动多个spark作业。submit方法可以接受一个作业的jar包路径或者类名，并可以传递参数给作业。
使用Spark的Shell：可以在Spark的Shell中通过命令行的方式启动多个spark作业。可以使用spark-submit命令来提交作业，也可以直接在Shell中编写作业代码并执行。
使用Spark的REST API：可以通过Spark的REST API来启动多个spark作业。REST API提供了一组HTTP接口，可以通过发送HTTP请求来提交作业。
使用Spark的调度框架：可以使用Spark的调度框架（如Mesos、YARN）来启动多个spark作业。调度框架可以管理集群资源，并根据作业的需求来分配资源。

总结起来，启动多个spark作业可以通过Spark的子任务机制来实现，并可以使用Spark的submit方法、Shell、REST API或调度框架来提交作业。这样可以实现并行处理多个任务，提高作业的执行效率。

在一个主spark作业中启动多个spark作业

、

是否可以在一个主spark作业中产生多个spark作业，我的主spark作业的驱动程序是在纱线集群上启动的，它将进行一些预处理，并基于它需要在纱线集群上启动多个spark作业。主spark作业将启动其他spark<

浏览 5提问于2016-12-21得票数 2

1回答

Spark-submit main类中的主url和SparkSession主url，有什么区别？

在使用spark-submit提交作业时，我设置了主URL，并为他提供了一个主类，例如：但是在这个主类中，我的spark上下文定义了另一个主url： SparkSession.builder().

浏览 1提问于2016-08-08得票数 8

回答已采纳

2回答

如何使用python多处理在Spark中运行多个并发作业

、、、

我已经在我的笔记本电脑上的纱线集群上设置了一个Spark，并且使用python多处理在Spark中运行多个并发作业时遇到了问题。我运行的模式是纱-客户模式。我尝试了两种方法来实现这个目标：设置一个SparkContext并创建多个进程来提交作业。此方法不起作用，程序崩溃。我想单个SparkContext不支持python多个进程。对于每个进程，设置一个Spa

浏览 2提问于2015-11-09得票数 2

1回答

库伯奈斯独立的火花:火花壳工作的奴隶，而不是主人:最初的工作没有接受任何资源；

、

我正在一个裸金属Kubernetes集群上测试Spark2.3.1(独立的)。我有一个带有两个虚拟机的集群，它们都有8GB的内存和2个核心。我已经部署了一个包含一个主节点和两个从节点的集群。--master spark://spark-master:7077和sc.makeRDD(List(1,2,4,4)).count作为作业从容器中启动火花壳来执行一个基本的

浏览 2提问于2018-08-29得票数 0

回答已采纳

1回答

与星火历史服务器正在运行的群集通信

我有一个可以工作的Spark集群，其中一个主节点和一些工作节点运行在Kubernetes上。此群集已用于多个星火提交作业，并已开始运行。在主节点上，我使用$ Spark _HOME/sbin/start历史记录-server.sh脚本和一些信任来确定历史服务器的日志应该写在哪里，从而启动了一个星火历史服务器： spark.eventLog.enabled=...

浏览 2提问于2021-09-16得票数 1

回答已采纳

1回答

为什么一个动作会产生两个工作？

、、

我使用Spark2.1.0。val path = "/usr/lib/spark/examples/src/main/resources/people.txt"peopleDF.show() 我在

浏览 3提问于2017-06-06得票数 2

回答已采纳

1回答

AWS EMR火花:错误:无法从JAR加载主类

、、

我正在尝试使用AWS控制台向AWS EMR集群提交一个spark作业。但它失败了，因为：在本地机器上，如果未按以下方式指定主类，则作业似乎非常正常： ./spark-submit /home/astro/

浏览 2提问于2018-01-23得票数 6

回答已采纳

1回答

气流-如何使用非退出命令运行KubernetesPodOperator

、、、、

我正在尝试设置一个DAG，它将在第一个任务中创建一个星火集群，在临时任务中向集群提交Spark应用程序，并在最后一个任务中最终删除spark集群。我现在正在尝试的方法是使用KubernetesPodOperators来创建Spark和Worker。问题是，它们运行的是一个从未退出的星火守护进程。事实上，调用豆荚的命令永远不会退出，这意味着这些任务在运行阶段被困在气流中。所以，我想知

浏览 2提问于2020-01-15得票数 1

回答已采纳

1回答

如何在Spark中并行读写多个表？

、、、

在我的Spark应用程序中，我尝试从RDBMS读取多个表，执行一些数据处理，然后将多个表写入另一个RDBMS，如下所示(在Scala中)：myDF3.write.mode("append").jdbc(myurl2, outtable3, new java.util.Properties) 我知道从一个表<e

浏览 0提问于2015-08-25得票数 8

2回答

我在实习岗位上，我对系统中的下载/安装有一个有限的访问权限。我的问题是如何在Windows7上安装Apache spark (我总是通过Hortonworks在VM中使用它，但在我的实习期间，我没有安装VM或Hortonworks的权利)。我在论坛上搜索了更多，我认为我可以使用Eclipse，导入spark并安装scala IDE (scala是我对Spark的首选语言)，但我无法找到解决方案。你能给我一些建议或想法吗？

浏览 3提问于2017-03-17得票数 0

2回答

有没有使用API提交spark作业的方法

、、、、

我可以使用控制台在linux服务器上提交spark作业。但是在linux服务器上有没有什么API或者框架可以用来提交spark作业呢？

浏览 0提问于2017-01-04得票数 0

2回答

集群中MapReduce和Spark作业的资源分配

、、、

我无法理解为Map Reduce和Spark作业分配资源的内部机制。在同一个集群中，我们可以运行Map Reduce和Spark作业，但是对于运行map reduce作业，内部资源管理器将为作业分配可用的资源，如数据节点和任务跟踪器。当涉及到Spark上下文时，它需要工作节点和执行器(内部为JVM)来计算程序。这是否意味着Map Reduce和Spark作业将有不同的节点？如果不

浏览 1提问于2017-06-10得票数 1

1回答

无法将查询传递到Yarn群集模式下的java spark程序

、、

Talend 7.1、MapR6.0分发版、Spark 2.2、查询可以有复杂的配置单元连接&有时用户甚至可以使用特殊字符反引号、！、tilda、@。如果子spark作业在Spark

浏览 1提问于2021-03-05得票数 0

1回答

在Spark程序中访问Oozie配置

、、

我在.bash_profile中保存了一个环境变量。我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。然而，当我尝试使用Oozie调度我的程序时，程序抛出一个错误，它无法读取环境变量。' /> <spark</e

浏览 1提问于2020-01-14得票数 0

2回答

EC2 spark集群中的主URL是什么

、

我使用spark-ec2脚本启动了一个spark集群。(编辑:登录到主节点后)，我可以在主节点本地运行spark作业，如下所示：但是我似乎不能在集群模式下运行作业/spark/bin/spark-submit --class m

浏览 1提问于2015-07-15得票数 1

1回答

Spark驱动程序未分配任何工作进程

、

我正在使用 spark version 2.4.7-bin-hadoop.2.7java 8 具有1个主节点和2个工作节点的spark群集正在作为独立群集spark配置运行 spark.masterspark.driver.memory 500M 主启动脚本为${SPARK_HOME}/sbin/start-master.sh 从启动脚本为${<

浏览 31提问于2021-04-17得票数 0

4回答

在IntelliJ Idea中运行Apache示例应用程序

、、

我试图在Netbeans中运行SparkPi.scala示例程序。不幸的是，我对星火还很陌生，没有能够成功地执行它。import org.apache.spark.SparkConf Using Spark's

浏览 4提问于2016-03-25得票数 3

回答已采纳

1回答

根据卡夫卡的信息发送和启动火花工作

、、

"type": "job_type_1" "://some_file"]

浏览 0提问于2019-07-29得票数 3

1回答

带火花连接器的MongoDB

、、、

如果我有一个mongodb的副本集，那么主服务器正在接收所有的写/读操作，并将它们写入服务器。辅助服务器正在从操作日志中读取操作并复制它们。现在我想用spark- mongodb -connector来分析mongodb副本集中的数据。我可以在所有三个节点上安装spark集群，并在内存中对其运行分析。我知道spark集群有一个主节点，在那里我必须提交spark作业以进行分析，或sp

浏览 15提问于2017-01-25得票数 1

2回答

这是可能配置梁便携式流道与火花配置？

、、、

更准确地说，可以在便携式运行程序中配置spark.driver.host吗？目前，我们已经在Kubernetes集群中实现了气流，为了使用TensorFlow扩展，我们需要使用Apache。设置在beam文档之后，作业serer在与气流相同的吊舱中实现，以使用这两个容器之间的本地网络。正如我们所看到的，执行器是不断退出的，而据我所知，这个问题是由执行器和驱动程序(本例中的作业服务器)之

浏览 5提问于2021-02-22得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在一个主spark作业中启动多个spark作业

相关·内容

在一个主spark作业中启动多个spark作业

Spark-submit main类中的主url和SparkSession主url，有什么区别？

如何使用python多处理在Spark中运行多个并发作业

库伯奈斯独立的火花:火花壳工作的奴隶，而不是主人:最初的工作没有接受任何资源；

与星火历史服务器正在运行的群集通信

为什么一个动作会产生两个工作？

AWS EMR火花:错误:无法从JAR加载主类

气流-如何使用非退出命令运行KubernetesPodOperator

如何在Spark中并行读写多个表？

如何在Windows 7上安装spark

有没有使用API提交spark作业的方法

集群中MapReduce和Spark作业的资源分配

无法将查询传递到Yarn群集模式下的java spark程序

在Spark程序中访问Oozie配置

EC2 spark集群中的主URL是什么

Spark驱动程序未分配任何工作进程

在IntelliJ Idea中运行Apache示例应用程序

根据卡夫卡的信息发送和启动火花工作

带火花连接器的MongoDB

这是可能配置梁便携式流道与火花配置？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐