如何在客户端模式下设置spark driver maxResultSize？

文章/答案/技术大牛

发布

1回答

python、apache-spark、driver、pyspark

我知道当您在pyspark中处于客户端模式时，您不能在脚本中设置配置，因为JVM一加载库就会启动。因此，设置配置的方法是实际编辑启动它的shell脚本：spark-env.sh...according to this documentation 。如果我想更改驱动程序的最大结果大小，我通常会这样做：spark.driver.maxResultSize。与spark-env.sh文件中的内容等效的是什么？一些环境变量很容易设置<

浏览 31提问于2016-07-16得票数 3

回答已采纳

2回答

Spark Thrift服务器在通过JDBC传输之前将全部数据集加载到内存中

apache-spark、spark-thriftserver

Spark Thrift服务器试图在通过JDBC传输之前将完整的数据集加载到内存中，在JDBC客户端上，我收到错误： SQL Error: org.apache.spark.SparkExceptionJob aborted due to stage failure: Total size of serialized results of 48 tasks (XX GB) is bigger than spark.driver.maxResultSizeresults of 48 tas

浏览 9提问于2018-11-01得票数 0

1回答

最后阶段的工作失败

apache-spark、pyspark、google-cloud-dataproc

我在Dataproc上使用Spark集群，我的工作在处理结束时失败。我的集群有25名工作人员，其中有n1-highmem-8机器。因此，我搜索了这个错误，并将"<

浏览 3提问于2017-07-12得票数 0

回答已采纳

1回答

星火独立集群模式下的spark.driver.cores设置

apache-spark

我正在使用星火独立集群模式，并使用"spark.driver.cores"来设置驱动程序的核心数目。但是，每次UI显示"0“时，如图中所示甚至在代码中设置此值。.set("spark.driver.cores","14") 似乎不起作用。如何在独立集群模式下

浏览 0提问于2019-05-21得票数 2

2回答

为什么“n个任务的序列化结果(XXXX MB)”可能大于`spark.driver.memory`？

apache-spark、jvm、buffer、cluster-computing、pyspark

我启动了一个具有以下设置的火花作业(除其他外)：spark.driver.memory 12GBserialized results of 16 tasks (17.4 GB) is bigger than spark.driver.maxResultSize (11 GB) 因此，我在配置

浏览 2提问于2016-07-17得票数 8

回答已采纳

3回答

Databricks异常:序列化结果的总大小大于spark.driver.maxResultsSize

python、azure、apache-spark、databricks

当我想要这样做时，我会得到以下错误：我知道错误在一般情况下意味着什么，但我不知道它在我的例子中意味着什么，我也不知道如何解决这个问题。守则是：df = spark.read.format('com.databricks.spark

浏览 0提问于2018-10-30得票数 8

回答已采纳

1回答

在dataproc上触发默认设置，特别是spark.yarn.am.memory

apache-spark、hadoop-yarn、google-cloud-dataproc

在google dataproc上，我想知道火花设置是如何确定的？spark.executor.cores=2 spark.yarn.executor.memoryOverhead=558 spark.yarn.am.memory=5586m 我想知道为什么配置是这样设置</em

浏览 4提问于2016-12-16得票数 2

回答已采纳

1回答

火花分布的相关性质

java、apache-spark

", "2g") .set("spark.driver.maxResultSize", "2g"); 指定为标志或属性文件中的任何值都将传递给应用程序，并与通过SparkConf指定的值合并。自从早期版

浏览 3提问于2018-03-05得票数 5

1回答

N个任务的序列化结果(x )的总大小大于spark.driver.maxResultSize。

apache-spark、pyspark、apache-spark-sql

4778 tasks (1024.3 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)设置：spark.driver.maxResultSize : 1gspark.executo

浏览 0提问于2020-08-14得票数 2

3回答

oozie火花动作.如何指定火花选择

apache-spark、oozie

我是运行火花作业在纱线-客户模式通过oozie火花行动。我需要指定驱动程序和应用程序主控相关的设置。我试着配置由oozie记录的火花选择，但它不起作用。我是在纱客户端模式下运行，所以主要想要设置驱动程序相关的设置。我认为这是我唯一可以设置驱动程序设置的地方。<spark-opts>--driver-memory 10g --driver-java-options &qu

浏览 3提问于2016-05-08得票数 0

回答已采纳

3回答

为什么每个执行者只使用一个核心？它是如何决定使用除了分区数目以外的核心的？

apache-spark、apache-spark-standalone

我运行星火在高性能HPC环境下，在slurm上使用火花独立模式火花版本1.6.1。问题是我的slurm节点没有在火花独立模式中完全使用。我正在使用火花提交在我的slurm脚本。\ 我看到了在Spark上分配给执行器的0核，这是可以理解的，因为我们不再使用火花独立集群模式。但是现在，当我在worker节点上检查top +1命令时，所有的核心都被利用了，这表明问题不是应用程序代码的问题，而是火花独立模式下的资源利用问题。-75831ca4-1a8b-4364-839e-b0

浏览 2提问于2017-04-27得票数 3

1回答

星星之火没有使用所有配置的内存。

scala、apache-spark、bigdata

使用Spark-2.1.0快照在10个节点集群上以独立客户端模式启动星火。spark-shell --executor-memory 200g --driver-memory 200g --conf spark.driver.maxResultSize=200g 当我

浏览 3提问于2016-08-24得票数 9

回答已采纳

2回答

计算SparkR数据的大小

sparkr

通过使用SQLContext进行查询，我获得了一个数据当我试着得到它的尺寸时1024 bytes> localDf <- collect(df)45992 bytes 有时数据帧太大，无法在本地内存中使用。有没有一种简单的方法可以知道数据文件的实际大小而不把它带到本地

浏览 4提问于2016-02-03得票数 1

回答已采纳

1回答

如何在集群模式下启动JavaSparkContext客户端？

apache-spark

如何启动JavaSparkContext客户端集群模式？我正在尝试使用集群模式连接到现有的Spark集群(Spark集群工作者不能通过网络访问我运行Java代码的机器)，配置如下： SparkConf conf = new SparkConf().setMastersc = new JavaSparkContext(conf); 但客户端忽略该设置，在我的机器上启动驱动程序，而不是使用worker的驱动程序： INFO Utils: Successfully start

浏览 28提问于2019-02-06得票数 0

1回答

如何在客户端模式下加载火花独立的火花放电罐

python、mysql、apache-spark、jdbc、pyspark

我在客户端模式下使用python2.7和星火独立集群。在客户端模式下运行python脚本、在客户端模式上使用独立集群并引用

浏览 0提问于2017-08-27得票数 1

回答已采纳

1回答

如何使用JDBC从Oracle读取数据集？

windows、scala、apache-spark、jdbc、apache-spark-sql

1:我已经启动了一个火花主程序，如像这样的工人和火花壳在spar

浏览 1提问于2017-07-14得票数 1

回答已采纳

1回答

吡火花内存问题:引起: java.lang.OutOfMemoryError: Java堆空间

pyspark、out-of-memory、apache-spark-1.6

', 4) \ .set('spark.driver.memory', '16g') \ .set('spark.yarn.executor.memoryOverhead',4096

浏览 1提问于2018-05-17得票数 2

回答已采纳

1回答

在Hadoop上使用pyspark时性能较慢

python-2.7、pyspark、hadoop2

--部署模式客户端--驱动程序内存50g --配置spark.driver.maxResultSize=12g --执行器核心4--执行器内存25g --执行器数量100 这就是我提交代码的方式。/xxx/xxx/current_loaction/spark2-client/bin/spark-submit --master yarn --deploy-mode client --driver

浏览 5提问于2018-10-01得票数 0

1回答

如何计算火花驱动器的最大结果尺寸

apache-spark、pyspark

最近，我发现一个错误，即"spark.driver.MaxResultSize“被超过了。我在纱线客户端模式上使用电火花。代码是用来生成随机的假数据进行测试。new_df = None df = spark.range(0,10000) temp = df.select(f.col("id

浏览 0提问于2018-11-06得票数 2

2回答

火花驱动存储器和应用程序主存储器

apache-spark、hadoop、hadoop-yarn

我是否正确理解客户端模式的文档？ 客户端模式与集群模式相反，在集群模式中，驱动程序在应用程序主程序中运行？在客户端模式下，驱动程序和应用程序主进程是独立的进程，因此spark.driver.memory + spark.yarn.am.memory必须小于机器的内存吗？在客户端模式中，驱动程序内存是否不包括在应用程序主内存设置</em

浏览 2提问于2018-05-18得票数 14

点击加载更多