Spark :如何在代码上设置部署模式？

文章/答案/技术大牛

发布

0回答

apache-spark

我知道集群模式可以在spark-submit脚本中设置。但我想通过代码或可执行选项在应用程序上进行设置，例如java -Dspark.submit.deploymode=cluster ~~。我想在集群模式下运行我的spark应用程序。

浏览 1提问于2017-06-15得票数 2

回答已采纳

1回答

在坞中火花，为驱动程序/executor设置内存

docker、apache-spark

00:04:17 /usr/lib/jvm/java-1.8-openjdk/jre/bin/java -cp -Xmx1g org.apache.spark.deploy.master.Master-ip节点-主-端口7077 -webui-端口10080 conf.set("spark.executor.memory", "8g") c

浏览 0提问于2020-01-07得票数 0

1回答

星星之火如何将作业发送到集群？

java、scala、apache-spark

我正在使用YARN，并试图了解Spark是如何将作业发送到带有纱线的集群的。因此，我深入研究了源代码，发现当我们提交一个作业(例如foreach)时，下面的方法正在SparkContext::runJob中执行 } else { }实际上，我希望在那里有一些类似NIO的代码</

浏览 3提问于2017-09-09得票数 2

1回答

直接设置在SparkConf上的属性具有最高优先级，然后是传递给星火提交或火花外壳的标志，然后是火花-defaults.conf文件中的选项。自从早期版本的Spark之后，一些配置键已经被重命名；在这种情况下，旧的键名仍然被接受，但是比新键的任何实例都要低。星星之火属性主要可分为两类:一类是与部署有关的，如“spark.driver.memory”、“spark.executor.instances”，在运行时通过SparkConf编程设置这种属性，或

浏览 3提问于2018-03-05得票数 5

1回答

火花配置，SPARK_DRIVER_MEMORY、SPARK_EXECUTOR_MEMORY和SPARK_WORKER_MEMORY的区别是什么？

linux、memory、apache-spark、environment-variables、config

我做了我的工作，阅读了的文档 SPARK_WORKER_MEMORY，来设置内存工作者必须给执行者多少内存(例如，1000

浏览 8提问于2015-04-29得票数 5

回答已采纳

1回答

如何在play-framework /application.conf.conf文件中设置星火独立的主url？

apache-spark、production-environment、playframework-2.5、apache-spark-standalone

使用星火独立集群插入play应用程序，它在dev模式下执行良好，但当尝试在生产模式下部署时，会出现以下错误：我使用的是星星之火-2.1，这是片段 lazy val spark = SparkSession.builder().appName("Spark_with_Play").mast

浏览 3提问于2017-04-07得票数 0

回答已采纳

1回答

纱线vCores :在纱线上火花

apache-spark、hadoop、pyspark、hadoop-yarn

我向您提交关于纱线的火花申请，并附上以下内容conf.set("spark.executor.memory", "14g")conf.set("spark.executor.instances", "4")conf.

浏览 1提问于2019-03-04得票数 2

1回答

如何优化pyspark以跨所有节点使用所有核心？

python、apache-spark、pyspark

假设在1000行上应用一个简单的函数在50秒内完成。由于每个执行程序都有15个核心，因此每个分区都会有自己的核心： ('spark.executor.cores', '15'), ]) spark =

浏览 4提问于2021-09-06得票数 0

2回答

无法修改星图配置的值: spark.executor.instances

apache-spark、pyspark、apache-spark-sql

我正在使用Spark3.0并设置参数spark.conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")spark.conf.set("spark.sql.files.maxPartitionBy

浏览 11提问于2022-06-17得票数 2

回答已采纳

2回答

必须在配置中设置主URL，这会造成许多混乱

apache-spark、amazon-emr、spark-submit

我在eclipse中编译了我的星火-scala代码。我试图在EMR中运行我的jar (5.9.0Spark2.2.0)，使用火花提交选项。financialLineItem.FinancialLineItem s3://trfsmallfffile/AJAR/SparkJob-0.1-jar-with-dependencies.jar 我不会在Scala代码中设置任何应用程序主程序代码中设置master url。更新eclipse设置</e

浏览 5提问于2018-01-15得票数 0

1回答

星火Java堆空间

java、apache-spark、heap-memory

我试图将这个值放在VM选项-Xmx4g上，但是什么也没有发生。我也尝试过添加这个参数来触发配置，但是还是什么也没有发生。0,038806 s at org.apache.spark.mllib.linalg.Vectors$.zeros(Vectors.scala:340) at org.apache.spark.mllib.regression.Generaliz

浏览 2提问于2018-05-02得票数 3

3回答

部署模式客户端和主yarn客户端之间有什么关系

apache-spark

我使用spark-submit来运行我的spark程序，我使用--deploy-mode client和--master yarn-client来设置parameter.My问题： Q1:是不是说--deploy-modeQ2：--deploy-mode客户端是否意味着我的程序只在一台机器上运行，而不是在集群上运行，因为我在日志中找到了以下信息:所有任务在本地主机上完成。

浏览 0提问于2015-12-29得票数 3

1回答

如果火花在纱线上运行，如何获得SparkContext？

apache-spark、hadoop-yarn、apache-spark-sql

我们有一个基于Spark standalone的程序，在这个程序中，我们使用SparkContext和SqlContext来进行大量的查询。谢谢!

浏览 0提问于2015-08-18得票数 4

1回答

EMR - JavaSparkContext -IllegalStateException上的火花纱:库目录不存在

apache-spark、hadoop-yarn、emr

我有Java Spark作业，在EC2上以独立模式手动部署Spark 1.6.0。spark-submit --class <startclass> --master yarn --queue default --deploy-mode cluster--conf spark.eventLog.enabled=t

浏览 1提问于2017-02-18得票数 1

1回答

在Python代码中获取Azure数据砖块的实例

apache-spark、azure-databricks

我正在开发一个python包，它将部署到databricks集群中。我们经常需要引用python代码中的"spark“和"dbutils”对象。我们可以使用“星星之火”(如spark.sql())在笔记本中轻松地访问这些对象。如何在包中的python代码中获得spark实例？

浏览 0提问于2019-03-22得票数 1

回答已采纳

1回答

如何使用JDBC从Oracle读取数据集？

windows、scala、apache-spark、jdbc、apache-spark-sql

1:我已经启动了一个火花主程序，如像这样的工人和火花壳在spar

浏览 1提问于2017-07-14得票数 1

回答已采纳

1回答

增加Spark* executors几乎不会提高性能*

apache-spark、pyspark

我试图根据执行器和内核的数量来衡量Spark中的性能。我们的想法是玩： spark.conf.set('spark.cores.max', 'x')当我改变执行器和核心的数量时，测试Spark的性能的影响。= SparkSession.builder.appName('Basics'

浏览 0提问于2019-02-07得票数 1

3回答

Apache :客户端和集群部署模式的不同

apache-spark、apache-spark-standalone

TL；DR:星火独立集群中的，客户端和集群部署模式之间有什么不同？如何设置应用程序将在哪种模式上运行？2台相同的工人机器 (...)对于独立集群，Spark目前支持两种部署模式。在客户端模式下，驱动程序在与提交应用程序的客户端相同的进程中启动。但是，通过阅读这篇文章，我并不真正理解实际的差异，我也不明白不同部署模式的优缺点。此外，当我使用start-submit启动应用程序时

浏览 5提问于2016-05-04得票数 40

回答已采纳

2回答

发送作业到spark集群

apache-spark、intellij-idea、cassandra

我设置了一个spark集群，使用cassandra作为独立模式下的数据集群。另一方面，我使用IntelliJ的思想来编写驱动程序代码，这些代码将被发送到spark集群，由workers执行。我想知道的是，是否可以将intellij (在我的本地机器中)中的代码执行到远程集群中，或者我必须创建一个.jar文件并使用sopark-submit?将其部署到工作进程。我只是在寻找确认，因为我在进行所有设置时遇到了问题，需要减少可能性。提前谢

浏览 7提问于2017-08-02得票数 2

回答已采纳

1回答

火花驱动程序在读取几个S3文件时内存不足

java、hadoop、apache-spark、amazon-s3

Dump of the process-tree for container_1507231957101_0001_02_000001 conf.set("spark.files.maxP

浏览 3提问于2017-10-05得票数 1

点击加载更多