Dataproc: Notebook集群模式中的Spark_无法读取带有Spark的DataProc spark中的avro -avro_Spark程序在本地模式和集群模式下的区别 - 腾讯云开发者社区

、、、

我使用以下命令在谷歌DataProc中创建了一个集群： gcloud beta dataproc clusters create my-cluster \ --project my-project \ --bucket my-bucket \ --region my-region \ --zone my-zone \ --num-workers 5 \ --service-account my-service-account \ --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/conne

浏览 10提问于2020-01-29得票数 2

回答已采纳

1回答

在Jupyter中使用pip导致Google Dataproc集群中的内核死机

、、

我使用以下命令创建了一个Dataproc集群： gcloud beta dataproc clusters create my-cluster \ --project my-project \ --bucket my-bucket \ --region my-region \ --zone my-zone \ --num-workers 5 \ --service-account my-service-account \ --initialization-actions gs://goog-dataproc-initialization

浏览 13提问于2020-01-30得票数 1

1回答

Dataproc: Notebook集群模式中的Spark

、、、、

我想知道，Dataproc是否提供了在Jupyter Notebook中以集群模式使用Spark的可能性？如果是，它是如何工作的？有没有Livy API + Spark Magic或者其他解决方案？谢谢!

浏览 24提问于2020-07-24得票数 1

2回答

如何在GCP集群模式下运行spark作业？

、、

在GCP中，我们希望在一个data[proc集群]上以集群模式运行一个spark作业。目前，我们使用以下命令：- gcloud dataproc jobs submit spark --cluster xxxx-xxxx-dataproc-cluster01 --region us-west2 --xxx.xxxx.xxx.xxx.xxx.xxx.xxxx.xxxx --jars gs://xxx-xxxx-poc/cluster-compute/lib/xxxxxxxx-cluster-computation-jar-0.0.1-SNAPSHOT-allinone.jar --propert

浏览 14提问于2020-03-16得票数 2

1回答

无法从ssh到的主节点，但可以通过ssh计算引擎VM

、、、、

我在进入Google计算引擎VM时没有遇到任何问题，但我无法将ssh放入Google集群的主节点中。具体来说， gcloud compute ssh my-vm 效果很好，而 gcloud compute ssh mycluster-m 错误消息失败： admin@IP.ADDRESS: Permission denied (publickey). ERROR: (gcloud.compute.ssh) [/usr/bin/ssh] exited with return code [255]. 计算引擎VM和Dataproc集群位于同一个项目中。我从错误消息中了解到，它与ssh键有关，但我不

浏览 2提问于2020-09-04得票数 0

回答已采纳

2回答

随着Dataproc img版本2.0.39-ubuntu18 18的增加，GCP云日志记录成本增加

、、

我有一个带有映像版本- 2.0.39-ubuntu18 18的Dataproc集群，它似乎将所有日志都放入了云日志记录中，这大大增加了我们的成本。下面是用于创建集群的命令，我添加了以下命令- spark:spark.eventLog.dir=gs://dataproc-spark-logs/joblogs，spark:spark.history.fs.logDirectory=gs://dataproc-spark-logs/joblogs 若要停止使用云日志记录，请执行以下操作。日志也被重新定向到云日志记录。下面是用于创建Dataproc集群的命令： REGION=us-east1 ZO

浏览 16提问于2022-05-30得票数 1

回答已采纳

1回答

为什么dataproc不承认论点: spark.submit.deployMode=cluster？

我以这种方式向dataproc提交了一个火花作业： gcloud dataproc作业提交星星之火--集群=$集群--region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.19.1，spark.submit.deployMode=cluster --class path.to.my.main.class --jars= spark .to.jars- "-p“"some_arg”"-z“"some

浏览 2提问于2021-04-29得票数 4

回答已采纳

1回答

将字典作为json文件从Jupyter Notebook on Data Proc转储到Google云存储

、、、

我在Google dataproc集群上使用spark。我已经在Jupyter notebook中创建了一个字典，我想将其转储到我的GCS存储桶中。然而，通常使用fopen()转储到json的方法在gcp情况下似乎不起作用。那么，如何将我的字典作为.json文件写入GCS呢？或者，有没有其他方法可以得到字典？有趣的是，我可以毫不费力地将spark数据帧写入gcs，但显然，我无法在gcs上加载JSON，除非我在本地系统上有它！请帮帮我！谢谢。

浏览 24提问于2020-08-02得票数 1

1回答

如何在集群模式下运行dataproc集群？

我们正尝试在集群模式下运行Dataproc集群，但失败了。我们已经尝试了属性--properties spark.submit.deployMode=cluster，但失败了。有没有人能提供更多关于如何设置的信息？提前谢谢。

浏览 18提问于2020-02-24得票数 2

1回答

线程"main“org.apache.spark.sql.AnalysisException异常:路径不存在

、、、

我在Google dataproc集群版本1.4和spark版本2.4.5中运行spark作业，它从GS存储桶中读取路径中具有正则表达式的文件，并获取以下错误。 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat; at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$

浏览 219提问于2020-08-07得票数 1

1回答

从访问Cassandra

、、

我刚刚使用DataProc在Google中建立了一个Spark集群，并且在一个单独的VM上运行了一个独立的Cassandra安装。我想安装Datastax火花卡桑德拉连接器，以便我可以连接卡桑德拉从火花。我该怎么做？连接器可以在这里下载：有关建筑的说明如下：需要sbt来构建它。在哪里可以找到用于安装DataProc的sbt？它会在$SPARK_HOME/bin以下吗？DataProc在哪里安装了火花？

浏览 1提问于2015-12-29得票数 0

1回答

Dataproc集群并行运行最多5个作业，忽略可用资源。

、

我将1200个表中的数据加载到BigQuery中，其中包含一个spark作业。它都是编排的ETL流程的一部分，其中spark作业由scala代码组成，它接收来自PubSub的消息。因此在大约一个小时的时间内收到1200条信息。每条消息都会触发代码(异步)，该代码通过小的转换从表中读取数据，并写入BigQuery。这一过程本身运作良好。我的问题是，尽管有大量的“工作”在等待，而且有大量的资源可供利用，但活跃岗位的数量从未超过5个。我试过将spark.driver.cores提高到30，但没有改变。而且，虽然这个设置在Google控制台中是可见的，但它似乎并不能完成实际的星火作业(当在spark

浏览 0提问于2020-06-27得票数 1

回答已采纳

1回答

数据处理映像上的Spark 2.1

我正在尝试使用Spark 2.1启动一个Dataproc集群。有没有Spark 2.1的镜像版本？我看到的是Spark 2.0和2.2，但不是2.1。 https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

浏览 13提问于2020-12-22得票数 2

回答已采纳

1回答

在GCP日志中获取DataProc输出

、、

我有一个在执行期间输出一些日志的DataProc作业。我可以在作业输出中看到这些日志。我的集群是根据创建的，参数如下： dataproc:jobs.file-backed-output.enable=true dataproc:dataproc.logging.stackdriver.enable=true dataproc:dataproc.logging.stackdriver.job.driver.enable=true dataproc:dataproc.logging.stackdriver.job.yarn.container.enable=true 我可以在日志中看到所有系统日

浏览 1提问于2021-03-15得票数 1

1回答

使用多个jars创建dataproc集群

、、

我正在尝试创建一个dataproc集群，它将dataproc连接到pubsub。我需要在spark.jars标志中添加多个集群创建的jars gcloud dataproc clusters create cluster-2c76 --region us-central1 --zone us-central1-f --master-machine-type n1-standard-4 \ --master-boot-disk-size 500 \ --num-workers 2 \ --worker-machine-type n1-standard-4 \ --worker-boot-disk

浏览 8提问于2021-11-27得票数 2

回答已采纳

1回答

无法创建Dataproc群集

、、

我尝试通过气流和Google创建Dataproc集群，而集群的创建始终失败。以下是我用来创建集群的气流代码- # STEP 1: Libraries needed from datetime import timedelta, datetime from airflow import models from airflow.operators.bash_operator import BashOperator from airflow.contrib.operators import dataproc_operator from airflow.utils import trigger_rul

浏览 0提问于2020-09-15得票数 3

回答已采纳

1回答

在Google dataproc中运行多个spark流作业

、、、

如何在dataproc集群中运行多个spark流作业？我使用capacity-scheduler.xml创建了多个队列，但是如果我想运行12个不同的流聚合应用程序，现在需要12个队列。有什么想法吗？

浏览 0提问于2017-09-18得票数 0

4回答

Dataproc:木星电火花笔记本无法导入图形框架包

、、、

在Dataproc星火集群中，星火外壳中有图形框架包，而jupyter pyspark笔记本中却没有。 Pyspark内核配置： PACKAGES_ARG='--packages graphframes:graphframes:0.2.0-spark2.0-s_2.11' 下面是初始化群集的cmd： gcloud dataproc clusters create my-dataproc-cluster --properties spark.jars.packages=com.databricks:graphframes:graphframes:0.2.0-spark2.0-s_

浏览 10提问于2016-11-30得票数 3

回答已采纳

2回答

/datalab/notebook目录是在Dataproc主服务器上创建的吗？

、

我正在旋转短命的集群，并在达到目的后立即销毁它们。但是，我希望将在/datalab/notebook目录中创建的笔记本持久化，然后在创建新集群时将它们复制到同一目录中，这样在前一个集群上创建的所有笔记本都可用。我可以在关机前将笔记本复制到GCS存储桶中，但无法在创建新集群后将它们从GCS复制回/datalab/network，因为目录/datalab/notebook是在我的启动脚本运行时或初始化脚本datalab.sh完成后创建的。这个目录是在哪里创建的，或者我如何将笔记本从我的GCS存储桶复制到/datalab/notebook？关键是/datalab/notebook需要在进行此复

浏览 12提问于2019-04-30得票数 2

2回答

为什么Google Dataproc HDFS名称节点在Safemode中？

、、、

我试图通过向Dataproc集群提交一个Spark作业来写入hdfs:///home/bryan/test_file/上的HDFS目录。我得到一个错误，名称节点是在安全模式。我有让它脱离安全模式，但我担心这可能是因为另一个原因。为什么Dataproc集群处于安全模式？ ERROR org.apache.spark.streaming.scheduler.JobScheduler: Error running job streaming job 1443726448000 ms.0 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop

浏览 7提问于2015-10-01得票数 3

1回答

谷歌DataProc中的spark-shell和sparkR

、

我是谷歌DataProc的新手出于测试目的，我们希望通过spark-shell或sparkR运行一组代码。可以连接到spark集群并在谷歌DataProc中执行spark-shell或sparkR中的命令吗？我检查了，似乎我们可以使用spark-submit提交作业，但我没有找到与spark-shell或SparkR相关的信息。

浏览 0提问于2017-01-24得票数 0

回答已采纳

1回答

如何在集群模式下提交火花作业？

、、、、

我知道这上面有10个google页面的信息，但是他们都告诉我把--master yarn放在spark-submit命令中。但是，在集群模式下，我的本地笔记本电脑怎么可能知道这意味着什么呢？假设我有我的笔记本电脑和一个正在运行的dataproc集群。如何使用我的笔记本电脑中的火花提交来向这个集群提交作业？

浏览 3提问于2022-01-07得票数 2

回答已采纳

1回答

找不到Google Dataproc初始化脚本错误文件

、

我正在使用Google Dataproc初始化一个Jupyter集群。首先，我使用了github中提供的"dataproc-initialization-actions“，它的工作方式非常出色。这是文档中提供的创建集群调用： gcloud dataproc clusters create my-dataproc-cluster \ --metadata "JUPYTER_PORT=8124" \ --initialization-actions \ gs://dataproc-initialization-actions/jupyter

浏览 10提问于2016-08-13得票数 1

回答已采纳

1回答

找不到DataprocCreateClusterOperator信任: Dataproc Metastore

、、、、

一直在寻找使用JSON格式的集群信任，以便使用dataproc Metastore服务和Spark依赖jars创建Dataproc集群(GCE)，无法找到任何指定如何使用这些JSON信任的参考文档。我查看了以下链接：但是它没有指定GCE集群信任，它的REST和GKE集群信任--请参见下面的信任--我正在尝试创建一个dataproc集群： CLUSTER_CONFIG = { "gce_cluster_config": { "internal_ip_only": True, "metadata": {

浏览 17提问于2022-05-27得票数 2

1回答

无法从dataproc.googleapis.com获得的Dataproc作业日志

、、

我在dataproc集群中启用了以下策略 **"dataproc:dataproc.logging.stackdriver.enable": "true", "dataproc:dataproc.logging.stackdriver.job.driver.enable": "true", "dataproc:dataproc.monitoring.stackdriver.enable": "true",** "dataproc:efm.mapreduce.shu

浏览 6提问于2022-09-26得票数 2

回答已采纳

1回答

Apache束流管道的缺失度量(通过SparkRunner / Dataproc)

、、、、

目前，我正在通过Stackdriver向运行在Google上的现有管道中添加一些指标，并试图确定如何访问这些指标，并最终将其公开给Stackdriver(在Grafana仪表板下游使用)。这些指标本身相当简单(一系列计数器)，并被定义为这样(并在整个管道中在DoFns中访问)： object Metrics { val exampleMetric: Counter = Metrics.counter(ExamplePipeline::class.qualifiedName, "count") // Others omitted for brevity } 这个度

浏览 5提问于2021-01-14得票数 2

回答已采纳

2回答

迁移到Spark1.6.0

、

Google Dataproc会很快开始使用Spark1.6.0吗？我正在使用以下命令创建一个集群： gcloud beta dataproc clusters create <cluster-name> 它默认使用Spark1.5.2。谢谢。

浏览 2提问于2016-01-19得票数 0

回答已采纳

1回答

为什么Apache Spark ML on Dataproc仅在单个节点上训练？

、、、

我是分布式ML的新手，目前正在做我的个人项目我在Cloud Dataproc上使用PySpark训练我的模型，并构建管道，如下所示 spark = SparkSession.builder.appName('sparkify-train').getOrCreate() df = spark.read.parquet(path) gbt = GBTClassifier() paramGrid = ParamGridBuilder() \ .addGrid(gbt.maxDepth, [4,8,12]) \ .addGrid(gbt.maxIter, [5,1

浏览 3提问于2021-03-14得票数 2

1回答

如何在本地木星笔记本的Dataproc中使用考拉

、、、、

通过查看Google文档，我能够向Dataproc集群提交Spark作业，并在集群中安装JupyterLab，以便在笔记本上运行迭代操作。但是，我无法找到使用DataProc集群资源从本地木星笔记本(在我的计算机上)运行迭代命令的正确配置。我特别感兴趣的是从本地JupyterLab创建集群，然后使用pySpark (考拉)对托管在BigQuery和GCS上的大型数据文件执行一系列操作。我的目标是在本地JupyerLab中使用Dataproc，就像访问集群机器或顶点IA中的JupyterLab安装一样。有人知道如何配置它吗？

浏览 3提问于2022-01-11得票数 2

3回答

Dataproc:配置火花驱动程序和执行器log4j属性

、

正如前面的答案所解释的，更改星火集群的详细内容的理想方法是更改。但是，在dataproc上，Spark运行在Yarn上，因此，我们必须调整全局配置，而不是/usr/lib/spark/conf。若干建议：在dataproc上，我们有几个gcloud命令和属性，可以在集群创建过程中传递。可以更改/etc/hadoop/conf下的log4j.properties吗？ --properties 'log4j:hadoop.root.logger=WARN,console' 也许不是，就像从医生那里： --properties命令无法修改上面未显示的配置文件. 另一种方法

浏览 6提问于2016-03-23得票数 5

回答已采纳

1回答

PySpark在纱线客户端模式下运行，但在集群模式下失败，因为“用户没有初始化火花上下文！”

、、、、

标准dataproc映像2.0 Ubuntu 18.04 LTS Hadoop 3.2 火花3.1 我正在测试在dataproc pyspark集群上运行一个非常简单的脚本： testing_dep.py import os os.listdir('./') 我可以在客户端模式下运行testing_dep.py (默认情况下为dataproc)： gcloud dataproc jobs submit pyspark ./testing_dep.py --cluster=pyspark-monsoon --region=us-central1 但是，当我

浏览 33提问于2022-01-11得票数 3

回答已采纳

1回答

将多个系统属性传递给google dataproc集群作业

、、、

我试图在Dataproc集群上提交一个spark作业。作业需要多个系统属性。我只能通过以下一项： gcloud dataproc jobs submit spark \ --cluster <cluster_name> \ --class <class_name> \ --properties spark.driver.extraJavaOptions=-Dhost=127.0.0.1 \ --jars spark_job.jar 如何传递多个属性？我试过了，就算是这

浏览 0提问于2018-03-03得票数 6

回答已采纳

1回答

将pyspark脚本提交到远程Spark服务器？

、、

这可能是一个非常愚蠢的问题，但我在谷歌上找不到答案。我已经编写了一个简单的pyspark ETL脚本，它读取CSV并将其写入Parquet，类似于： spark = SparkSession.builder.getOrCreate() sqlContext = SQLContext(spark.sparkContext) df = sqlContext.read.csv(input_filename) df.write.parquet(output_path) 为了运行它，我在Docker中启动了一个本地Spark集群： $ docker run --network=host jupyter/

浏览 0提问于2019-02-12得票数 6

1回答

google集群的优化

、

我正在使用dataproc集群进行火花处理。我是全新的谷歌云的东西。在我们的应用程序中，我们有使用dataproc的1000多个作业。对于每个作业，我们都会生成新的集群，并在作业结束后终止它。我正在使用火花放电作为加工用途。使用稳定节点和可抢占节点的混合来降低成本安全吗？提高dataproc cluser性能的最佳软件配置是什么？我知道hadoop/spark集群的内部基础设施优化。它是否适用于dataroc集群或其他需要的东西？当我们处理大约150 we大小的avro格式化数据时，哪种实例类型最适合于dataproc集群。为了优化时间，我尝试了spark的数据缓存/持

浏览 0提问于2018-06-01得票数 0

回答已采纳

1回答

可以在Dataproc集群上使用Spark吗？

、、

希望在Dataproc中的默认集群上与传统的Spark进行交互。

浏览 1提问于2017-05-29得票数 0

回答已采纳

2回答

在Google Dataproc上升级Spark版本

、

我有一个Dataproc集群v-1.2，它当前的Spark版本是2.2.0，但我们的程序目前失败了，Spark版本2.2.1和2.3.0中已经引入了修复。有没有一种方法可以在不影响或破坏当前集群中任何依赖的情况下升级Spark版本。

浏览 0提问于2017-11-09得票数 1

1回答

在Dataproc中将spark.master更改为纱线

、、、、

我将作业提交到Dataproc中的星火集群(使用Hadoop )。我看到，无论我为spark.master和部署模式设置了哪些属性，当我进入Spark时，作业的环境选项卡总是显示spark.master的本地属性，而且作业的不同阶段总是使用相同的executor id，即使有更多的空间。例如： gcloud dataproc jobs submit spark --cluster mycluster --regionmyregion --class MyApp --properties 'spark.executor.extraJavaOptions=-verbose:class,,

浏览 1提问于2019-10-12得票数 2

1回答

在数据进程上找不到有效的SPARK_HOME

、、、、

Google Cloud上的Dataproc集群执行的Spark作业在任务PythonRDD.scala:446上卡住错误日志显示Could not find valid SPARK_HOME while searching .../hadoop/yarn/nm-local-dir/usercache/root/下的路径问题是，默认情况下应该在dataproc集群上设置SPARK_HOME。其他不使用RDDs的spark作业也能正常工作。在集群初始化期间，我没有重新安装spark (但我已经尝试过了，我之前认为这是导致问题的原因)。我还发现，在运行任务一分钟后，我的所有执行器都被删除了

浏览 2提问于2018-01-26得票数 1

回答已采纳

1回答

从运行在Dataproc集群上的Rstudio连接到BigQuery

、、、、

我创建了一个Dataproc集群，并使用以下说明成功启动了RStudio服务器：https://cloud.google.com/solutions/running-rstudio-server-on-a-cloud-dataproc-cluster 我还成功地安装了sparklyr并创建了Spark实例。 sc <- spark_connect(master = "local") 但是，我想知道如何连接到BigQuery。有一个sparkbq库，但是我不确定如何传递这里描述的bigquery jar连接器(在运行时)：https://cloud.google.com/

浏览 15提问于2020-11-28得票数 1

回答已采纳

1回答

GCP Dataproc :用于火花作业的CPU和内存

、、、、

我对GCP完全陌生。是用户必须管理驱动程序和工作人员分配的内存量以及在Dataproc集群中运行Spark作业的CPU数量吗？如果是，那么Dataproc使用的弹性有哪些方面？谢谢。

浏览 1提问于2019-08-21得票数 1

回答已采纳

1回答

在dataproc上触发默认设置，特别是spark.yarn.am.memory

、、

在google dataproc上，我想知道火花设置是如何确定的？在我的示例中，我运行的是一个3节点N1标准-4集群，自动生成的星火默认. case如下所示： # User-supplied properties. #Fri Dec 16 12:01:47 UTC 2016 spark.yarn.am.memoryOverhead=558 spark.executor.memory=5586m spark.executor.cores=2 spark.driver.memory=3840m spark.yarn.executor.memo

浏览 4提问于2016-12-16得票数 2

回答已采纳

1回答

如何在气流中将火花作业属性传递给DataProcSparkOperator？

、、、、

我试图使用气流的在Dataproc上执行Spark。jar位于GCS上，我动态地创建Dataproc集群，然后在新创建的Dataproc集群上执行此jar。我可以使用默认设置的DataProcSparkOperator来执行这一操作，但是我无法配置火花作业属性(例如--master、--deploy-mode、--driver-memory等)。从空气流动的文件中没有得到任何帮助。也尝试过很多事情，但都没有成功。我们很感激你的帮助。

浏览 0提问于2019-01-01得票数 4

回答已采纳

2回答

如何在虚拟机GCP中安装spark-bigquery-connector？

、、、、

我在GCP中有一个带有spark install的VM镜像集群Hadoop，但它不是一个dataproc。我可以在不使用dataproc的情况下安装spark bigquery连接器吗？如果是，我该怎么做？我找到了下载连接器的链接

浏览 0提问于2020-11-14得票数 0

1回答

创建Google集群并连接到外部远程蜂巢转移

、、、

我正在尝试创建一个dataproc集群，并指向一个远程Hive转移点，以便从这个集群访问Hive表。我使用下面的create群集命令来创建一个Dataproc2.0集群，并连接到远程Hive转移：创建集群命令： gcloud dataproc clusters create wl1-cluster-1 \ --region us-east1 \ --subnet projects/shared-vpc-admin/regions/us-east1/subnetworks/dev-us-east1-01 \ --enable-component-gateway \ --no-address \

浏览 3提问于2021-09-10得票数 2

回答已采纳

2回答

当使用Google CloudDataproc时，是否仍有必要微调星火配置参数？

、

详细说明：通常，在编写火花作业时，需要为不同的星火信任指定特定的值，以便以最优的方式使用集群资源。我们可以在初始化SparkSession时以编程方式这样做： SparkSession.builder .appName(SPARK_APP_NAME) .config("spark.executor.memory"，"1G") 我想知道的是:在使用时，我们还需要这样做吗？实际上，在创建Dataproc集群时，会初始化一个名为cluster.properies的属性文件，并包含像spark\:spark.executor.memory=2688m这样的值。

浏览 1提问于2019-02-12得票数 1

2回答

如何在spark作业中获取gcloud dataproc创建标志？

、、、

我想在spark作业中创建一个dataproc集群时使用标志。例如，我使用以下命令行创建了我的集群： gcloud dataproc clusters create cluster-name \ --region=region \ --bucket=bucket-name \ --temp-bucket=bucket-name \ other args ... 在我的scala spark工作中，我想要获取存储桶名称和其他参数如何做到这一点，我知道如果我想获得工作的参数，我必须这样做： val sc = sparkSession.sparkContext val conf_context=

浏览 18提问于2021-01-23得票数 2

1回答

在Dataproc集群中启用其他身份验证作用域

、

我试图在一个Dataproc集群中运行一个Spark (scala)作业，它需要连接到同一个项目中的Pub/Sub请求订阅，但是我得到了下面的错误消息。我猜想我的Dataproc集群中的机器缺少一个“”范围。我是否可以向Dataproc集群的机器添加其他身份验证作用域？ Exception in thread "main" com.google.api.client.googleapis.json.GoogleJsonResponseException: 403 Forbidden { "code" : 403, "errors"

浏览 5提问于2015-10-19得票数 3

回答已采纳

1回答

错误: org.apache.spark.SparkException:没有为以下任务配置指定执行器资源配置: gpu

、、

我正在尝试在仅使用CPU的GCP dataproc spark集群上使用tensorflow多工作者策略，使用以下链接：https://cloud.google.com/blog/products/data-analytics/faster-machine-learning-dataproc-new-initialization-action 但是在启动集群后，每当我尝试创建spark会话时，都会收到错误: org.apache.spark.SparkException:没有为以下任务配置指定执行器资源配置: gpu spark会话代码： from pyspark.sql import Sp

浏览 15提问于2021-05-07得票数 2

1回答

将pyfiles和参数传递给DataProcPySparkOperator

、

我正在尝试将参数和压缩的pyfiles传递给Composer中的临时Dataproc集群。 spark_args = { 'conn_id': 'spark_default', 'num_executors': 2, 'executor_cores': 2, 'executor_memory': '2G', 'driver_memory': '2G', } task = dataproc_operator.DataPr

浏览 1提问于2020-02-12得票数 2

回答已采纳

0回答

为什么Spark (在Google Dataproc上)不使用所有vcore？

、、、

我在谷歌DataProc集群上运行spark作业。但是看起来Spark并没有使用集群中所有可用的vcores，如下所示基于其他一些问题，如和，我已经将集群设置为使用DominantResourceCalculator来同时考虑vcpus和内存来进行资源分配 gcloud dataproc clusters create cluster_name --bucket="profiling- job-default" \ --zone=europe-west1-c \ --master-boot-disk-size=500GB \ --worker-boot-disk-s

浏览 0提问于2017-06-14得票数 8

回答已采纳