在spark中运行多个作业_在多个节点中运行spark作业_在一个主spark作业中启动多个spark作业 - 腾讯云开发者社区

、、、

我已经在我的笔记本电脑上的纱线集群上设置了一个Spark，并且使用python多处理在Spark中运行多个并发作业时遇到了问题。我运行的模式是纱-客户模式。我尝试了两种方法来实现这个目标：设置一个SparkContext并创建多个进程来提交作业。此方法不起作用，程序崩溃。我想单个SparkContext不支持python多个进程。对于每个进程，设置一个SparkContext

浏览 2提问于2015-11-09得票数 2

1回答

如何在Spark中并行读写多个表？

、、、

在我的Spark应用程序中，我尝试从RDBMS读取多个表，执行一些数据处理，然后将多个表写入另一个RDBMS，如下所示(在Scala中)：myDF3.write.mode("append").jdbc(myurl2, outtable3, new java.util.Properties) 我知道从一个表中读取数据可以使用分区

浏览 0提问于2015-08-25得票数 8

3回答

如何并行运行多个火花作业？

因此，我必须并行运行多个作业，以便所有查询同时启动。如何并行运行多个作业？

浏览 0提问于2018-03-30得票数 21

1回答

MLRun中的不同运行时是什么？

、、、

支持什么不同的运行时，为什么我要使用一个与另一个？

浏览 10提问于2022-05-27得票数 0

回答已采纳

1回答

如何在独立模式下并行运行两个火花作业

、、

我有火花作业，在其中我处理一个文件，然后执行以下步骤。2.Run some aggregations on dataframe and save to cassandrawriteToES(df)现在这两个操作一个接一个地运行。然而，这两者可以并行运行。我可以做两个火花工作，每一个给ES和Cassandra

浏览 0提问于2018-04-04得票数 9

1回答

Apache Spark:列出集群上运行的所有Spark作业

、、、

是否有一个命令可以列出集群上运行的所有spark作业？我刚接触这项技术，我们有多个用户在aws集群上运行spark-submit作业。有没有办法列出所有正在运行的spark作业？谢谢!

浏览 14提问于2016-08-26得票数 0

1回答

在spark中运行多个作业

、、、、

我有一个脚本(script1.sh)，它运行一个带有两个参数a和b的spark作业。如果我将参数更改为c和d，相同的脚本将访问不同的资源。此脚本用于在spark集群上运行作业。当前作业在两个不同的时间运行，第一个在10:00am，第二个在11:00am： $ sh -x script1.sh a b $ sh -x script1.sh c d 我知道我们可以

浏览 7提问于2020-01-25得票数 0

回答已采纳

1回答

如何在Spark中同时应用多个方法？

、

df是包含所有汽车数据的dataframe (| id | time | speed | gps |...|)；method1用于获取每个id的统计信息。method2用于获取每个id的其他统计信息。val a = method1(trips,df,sc)val c = method3(trips,df,sc)val e = method5(trips,df,sc) val f = m

浏览 0提问于2016-01-05得票数 0

2回答

在GCP中，我们希望在一个data[proc集群]上以集群模式运行一个spark作业。目前，我们使用以下命令：- gcloud dataproc jobs submit spark --cluster xxxx-xxxx-dataproc-cluster01 --region us-west2:spark.submit.deployMode=cluster --properties=spark.driver.extraClassPat

浏览 14提问于2020-03-16得票数 2

2回答

有没有使用API提交spark作业的方法

、、、、

我可以使用控制台在linux服务器上提交spark作业。但是在linux服务器上有没有什么API或者框架可以用来提交spark作业呢？

浏览 0提问于2017-01-04得票数 0

2回答

如何在Airflow dag中途成功退出任务？

、

我有一个在FTP服务器上检查文件的dag (airflow在单独的服务器上运行)。如果文件存在，则将文件移动到S3 (我们在此存档)。从那里，文件名被传递给Spark提交作业。spark作业将通过S3 (不同服务器上的spark集群)处理文件。我不确定是否需要多个dags，但流程如下。我要做的是，如果S3存储桶中存在文件，则只运行Spark作业。check_for

浏览 1提问于2017-06-24得票数 1

1回答

spark作业可以有多种配置吗？

、、、

假设我的PC如下所示4 5 6现在假设我有两个spark作业A和B。一个作业生成数据C，B将其作为输入。为了获得C语言，我需要像这样的集群集群2:主机: 4，从机:5 6对于B作业，我需要这样的集群：集群4:主机: 4，从机:1同样最重要的是，即使像这样的配置是可能的，那么编写这样的spark应用程序的最佳实践是什么，这样我们就不需要为作业A和B单独使用spark应

浏览 0提问于2017-04-23得票数 0

1回答

Spark Sql执行是否使用线程本地jobgroup？

从我的发现来看，在不同的作业组中运行多个sparksql并不会将它们放入指定的组中。https://issues.apache.org/jira/browse/SPARK-29340 创建新的threadlocal jobgroup适用于spark dataframe作业，但不适用于sparksql有没有办法将所有的线程本地spark sql执行放在一个单独的

浏览 38提问于2019-10-03得票数 0

1回答

我们是在dataframe上使用groupBy还是使用reduceBy

、、

而在groupBy中，apache中的dataframe会触发并在以后使用聚合，并在dataframe中使用另一列。有什么性能问题吗？reduceBy是一个更好的选择吗？

浏览 0提问于2018-03-27得票数 3

回答已采纳

2回答

为什么Spark结构化流不允许改变输入源的数量？

、、、

我想要建立一个火花流管道，从多个卡夫卡主题(数字随时间变化)读取。我打算停止流作业，添加/删除新主题，并在需要更新流作业中的主题时再次启动作业，使用中概述的两个选项之一。subscribePattern", "topic.*") \df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)") 在进一步研究后我

浏览 6提问于2020-06-09得票数 2

2回答

在java中没有spark-submit也行吗？

、

我听说在"remote-host-num1:7077“上有一个spark集群，在"remote-host-num2:7077”"remote-host-num3:7077“上有多个节点。如果我编写一个执行以下操作的程序： SparkConf conf = new SparkConf().setAppName("org.sparkexample.TestCount").setMaster("spark我想确认一下，因为我不想使用sp

浏览 2提问于2015-07-18得票数 14

回答已采纳

1回答

如何按顺序运行spark作业？

、、

我正在提交多个Spark作业。一个作业使用一个工人。目前，我一次提交了30个作业，5个作业正在运行，25个作业正在等待。但是，此操作会给服务器带来沉重的负载。(有时无法分配作业端口并发生错误。)是否有可能在一次运行5个部件的情况下减少负载？当前我的运行代码：： ~/spark-submit ~test1.py & ~/spark-sub

浏览 28提问于2020-11-30得票数 0

回答已采纳

1回答

spark.dynamicAllocation.enabled是如何影响工作顺序的？

需要了解何时使用spark.dynamicAllocation.enabled --使用它的优点和缺点是什么？我排队等待工作的提交。上午9:30 ->作业A在启用dynamicAllocation的情况下提交。上午10:30 ->作业B在启用dynamicAllocation的情况下提交。哪一份工作在分配执行者给工作A或工作B方面有优先权，以及火花如何协调b/w 2申请？

浏览 2提问于2017-05-27得票数 1

回答已采纳

1回答

为什么将RDD持久化到磁盘并不能提高性能？

我有下面的DAG 磁盘上RDD的大小为100 on 。

浏览 4提问于2017-03-09得票数 0

回答已采纳

1回答

如何通过AWS数据管道在AWS EMR集群中运行多个并行spark作业

、、

我正在尝试使用AWS Data PipeLine在电子病历集群中设置一个运行spark作业的流程。我们的流程按“随需应变”计划运行。作为本活动的一部分，我们首先在管道中创建一个EMR集群，然后希望在一个emr集群上并行运行多个spark作业。有没有一个我们可以用“随需应变”的时间表在数据管道上运行并行作业。

浏览 0提问于2017-09-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用python多处理在Spark中运行多个并发作业

如何在Spark中并行读写多个表？

如何并行运行多个火花作业？

MLRun中的不同运行时是什么？

如何在独立模式下并行运行两个火花作业

Apache Spark:列出集群上运行的所有Spark作业

在spark中运行多个作业

如何在Spark中同时应用多个方法？

如何在GCP集群模式下运行spark作业？

有没有使用API提交spark作业的方法

如何在Airflow dag中途成功退出任务？

spark作业可以有多种配置吗？

Spark Sql执行是否使用线程本地jobgroup？

我们是在dataframe上使用groupBy还是使用reduceBy

为什么Spark结构化流不允许改变输入源的数量？

在java中没有spark-submit也行吗？

如何按顺序运行spark作业？

spark.dynamicAllocation.enabled是如何影响工作顺序的？

为什么将RDD持久化到磁盘并不能提高性能？

如何通过AWS数据管道在AWS EMR集群中运行多个并行spark作业

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐