如何指定多个shell脚本作为Dataproc集群创建的初始化操作？_如何在创建Dataproc集群时运行Bash脚本作为初始化操作？ - 腾讯云开发者社区

、

我想在使用一个简单的shell脚本创建一个dataproc集群后，将jars添加到该集群的特定位置。一旦创建了dataproc集群，下一步就是执行bash脚本，该脚本将把jar添加到data proc集群中。您能建议使用哪个airflow操作符在dataproc集群上执行bash脚本吗？

浏览 21提问于2019-05-08得票数 2

1回答

如何使用Airflow DataprocOperator在谷歌DataProc集群上运行shell脚本

、、

一旦设置好集群，我就会尝试在Dataproc集群中运行shell脚本。我卡住了，或者不确定要传递给操作员的参数是什么，以便在集群启动并运行后触发.sh文件。创建集群的Airflow示例代码： create_cluster = DataprocClusterCreateOperator( task_id='create_dataproc_cluster', cluster_name=DAG_CONFIG['DATAPROC']['cluster_name'], project_id=DAG_CONFIG['PRO

浏览 31提问于2019-02-01得票数 2

2回答

如何知道何时执行dataproc初始化操作

我需要运行一个同时安装了Dataproc和cluster连接器的BigQuery集群。我使用的一个变体(因为我无法访问一般使用的存储桶)，一切正常工作，但是当我运行一个作业时，当集群启动并运行时，它总是导致一个Task was not acquired错误。我可以通过简单地在每个节点上重新启动dataproc代理来修复这个问题，但是我确实需要这样做才能在集群创建后立即运行作业。该脚本的这一部分似乎没有正常工作： # Restarts Dataproc Agent after successful initialization # WARNING: this function relies

浏览 2提问于2018-09-04得票数 0

回答已采纳

1回答

在初始化操作脚本中直接更新Dataproc集群(元数据或标签

我想在Dataproc集群的初始化脚本失败的情况下保存更具体的错误。是否可以从脚本中更新集群元数据或向集群添加标签(不使用gcloud dataproc clusters update)？或任何其他方法来编写更有用的错误消息？提前感谢！

浏览 13提问于2019-05-11得票数 1

2回答

Dataproc初始化脚本错误pip命令未找到使用多个初始化脚本时出错

下面是我用来创建dataproc集群的命令。这里有两个初始化脚本。(1) jupyter.sh (2) my_initialize.sh gcloud dataproc clusters create dproc \ --subnet default --zone us-west1-a --project myproject \ --initialization-actions gs://dataproc-initialization-actions/jupyter/jupyter.sh,gs://mydataproc/my_initialize.sh \ --mast

浏览 2提问于2018-09-12得票数 1

2回答

/datalab/notebook目录是在Dataproc主服务器上创建的吗？

、

我正在旋转短命的集群，并在达到目的后立即销毁它们。但是，我希望将在/datalab/notebook目录中创建的笔记本持久化，然后在创建新集群时将它们复制到同一目录中，这样在前一个集群上创建的所有笔记本都可用。我可以在关机前将笔记本复制到GCS存储桶中，但无法在创建新集群后将它们从GCS复制回/datalab/network，因为目录/datalab/notebook是在我的启动脚本运行时或初始化脚本datalab.sh完成后创建的。这个目录是在哪里创建的，或者我如何将笔记本从我的GCS存储桶复制到/datalab/notebook？关键是/datalab/notebook需要在进行此复

浏览 12提问于2019-04-30得票数 2

3回答

Google dataproc未能创建带有初始化脚本的新集群

、、、、

我使用以下命令创建data集群： gcloud dataproc集群创建informetis-dev -初始化-action“gs://dataproc-initialization-actions/jupyter/jupyter.sh，gs://dataproc-initialization-actions/cloud-sql-proxy/cloud-sql-proxy.sh，gs://dataproc-initialization-actions/hue/hue.sh，gs://dataproc-initialization-actions/ipython-notebook/ipytho

浏览 5提问于2016-10-07得票数 1

1回答

Google Cloud dataproc无法在-作用域=云平台上从cloudsql访问蜂巢转移

、、

我已经创建了2个数据proc，cluster.The要求是使用1个单元元存储，并且两个集群都可以访问。第一个是ETL集群，它有-作用域=sql，第二个是针对ML用户的--作用域=云平台.The数据库，使用ETL集群创建的表不被ML集群访问。如果我必须在每个集群中添加-作用域=sql，任何人都能提供帮助吗？ ETL集群创建命令： gcloud dataproc clusters create amlgcbuatbi-report \ > --project=${PROJECT} \ > --master-machine-type n1-standard-1 --wo

浏览 2提问于2019-11-17得票数 1

回答已采纳

1回答

Dataproc上的Zookeeper

、

我需要一个关于在Dataproc上设置Zookeeper集成的建议。手头的场景是一个项目，它将有3个长期运行的Dataproc集群，以及每个作业动态创建的许多临时集群。我希望至少有7名动物园管理员组成法定人数，但还没有找到任何如何做到这一点的文档。我知道我可以将Zookeeper组件添加到每个Dataproc集群，但是如何创建由多个集群组成的集成呢？

浏览 15提问于2020-07-29得票数 0

1回答

我没有找到NodeInitializationAction的证据，因为Dataproc已经运行。

、

我为Dataproc指定了一个NodeInitializationAction，如下所示： ClusterConfig clusterConfig = new ClusterConfig(); clusterConfig.setGceClusterConfig(...); clusterConfig.setMasterConfig(...); clusterConfig.setWorkerConfig(...); List<NodeInitializationAction> initActions = new ArrayList<>(); NodeInitializat

浏览 2提问于2016-12-22得票数 4

回答已采纳

2回答

在以编程方式将作业发送到dataproc之前创建群集

、、

我在试着安排一个PySpark工作。我遵循GCP文档，最后将一个小小的python脚本部署到App中，这样做如下：使用服务帐户进行身份验证将作业提交到群集问题是，我需要集群启动并运行，否则作业将不会被发送(该死!)但是，我不希望集群总是处于启动和运行状态，特别是因为我的工作需要每个月运行一次。我想在python脚本中添加集群的创建，但是调用是异步的(它发出HTTP请求)，因此我的作业是在集群创建调用之后，而是在集群真正启动和运行之前提交的。我该怎么做？我想要更干净的东西，而不仅仅是在我的剧本里等几分钟！谢谢编辑:到目前为止，我的代码如下所示：启动这项工作 cl

浏览 0提问于2018-04-12得票数 3

2回答

如何从dataproc访问Cloud？

、

我有一个dataproc集群，我想让集群访问一个Cloud实例。当我创建集群时，我分配了作用域--scopes sql-admin，但是在读取之后，我似乎需要通过代理进行连接。如何将其配置为从dataproc访问？更新：在集成出来之前(@vadim的答案)，我可以在我的dataproc初始化脚本中使用云代理来实现这个功能： wget https://dl.google.com/cloudsql/cloud_sql_proxy.linux.amd64 mv cloud_sql_proxy.linux.amd64 cloud_sql_proxy chmod +x cloud_sql_proxy

浏览 3提问于2016-04-09得票数 1

回答已采纳

2回答

如何用云壳中的木星笔记本连接到dataproc集群？

、、

我在这里看到了使用dataproc设置木星笔记本的说明，但我不知道如何修改过程，以便使用Cloud，而不是在本地创建SSH隧道。我已经能够通过运行 datalab connect vmname 然后使用预览功能。我想做一些类似的事情，但是使用木星笔记本和一个dataproc集群。

浏览 2提问于2017-04-13得票数 1

回答已采纳

1回答

在Google中使用非默认服务帐户

、

我想创建一个在非默认服务帐户下运行的dataproc集群。以下内容适用于计算实例： gcloud compute instances create instance-1 --machine-type "n1-standard-1" --zone "europe-west1-b" --scopes xxxxxxxx@yyyyyyyy.iam.gserviceaccount.com="https://www.googleapis.com/auth/cloud-platform" 但是，相同的--scopes参数在创建dataproc实例时失败： gc

浏览 1提问于2016-07-31得票数 1

回答已采纳

1回答

如何在Dataproc集群启动时自动安装Python库？

、、、

当集群启动时，如何在Dataproc集群上自动安装Python库？这将为手动登录到主节点和/或工作节点以手动安装所需的库节省麻烦。如果能知道这种自动安装是否可以只在主设备上安装，而不是在工作人员上安装，那就太好了。

浏览 0提问于2015-09-23得票数 6

回答已采纳

1回答

如何让主机运行？

、、

我在Dataproc上创建了一个集群，它运行得很好。但是，在集群空闲一段时间(~90分钟)后，主节点将自动停止。我创建的每个集群都会发生这种情况。我看到这里有一个类似的问题：看起来这是初始化操作问题。然而，这篇文章并没有给我足够的信息来解决这个问题。下面是我用来创建集群的命令： gcloud dataproc clusters create $CLUSTER_NAME \ --project $PROJECT \ --bucket $BUCKET \ --region $REGION \ --zone $ZONE \ --master-machine-

浏览 1提问于2019-04-09得票数 1

回答已采纳

1回答

是否有一种方法可以在google dataproc初始化中安装轮子或tar.gz python包

、、

我试图在Dataproc集群上使用pip install package psycopg2。我已经尝试过以下方法，但由于我的工作计算机有防火墙限制，所以这是行不通的。 REGION=<region> gcloud dataproc clusters create my-cluster \ --image-version 1.4 \ --metadata 'CONDA_PACKAGES=psycopg2' \ --metadata 'PIP_PACKAGES=psycopg2' \ --initialization-actions \

浏览 4提问于2020-05-21得票数 1

回答已采纳

2回答

用于运行shell脚本的Airflow Dataproc运算符

、、、、

是否有任何直接方法可以将shell脚本运行到dataproc集群中。目前，我可以通过pysparkoperator运行shell (它调用另一个python文件，然后这个python文件调用shell脚本)。我已经搜索了许多链接，但到目前为止还没有找到任何直接的方法。如果有人能告诉我最简单的方法，那将会对我很有帮助。

浏览 3提问于2017-09-19得票数 0

2回答

如何使用Airflow运行HDFS复制命令？

、、、

我可以知道如何使用airflow在DataProc集群上执行HDFS copy命令吗？在使用airflow创建集群之后，我必须将一些jar文件从Google存储复制到HDFS主节点文件夹。

浏览 2提问于2021-05-04得票数 3

1回答

无法在GCP上的dataproc集群中导入pyspark

、、

我只是在Google平台上安装了一个集群来运行一些火花缭乱的作业。最初，我使用ipython.sh (来自github存储库)作为集群的初始化脚本。这使得集群能够很好地启动，但是当试图在Ipython笔记本中导入pyspark时，我得到了一个“无法导入名称累加器”错误。经过一些搜索之后，我认为这与Python中没有包含的pyspark安装路径有关，所以我删除了我的集群，并希望创建一个新的集群，使用jupyter.sh作为初始化脚本。然而，现在我的集群根本不启动，我得到了一个错误。检查日志“dataproc-初始化-脚本-0_output”，它简单地说： /usr/bin/env: bash

浏览 2提问于2016-09-19得票数 1

1回答

使用默认服务帐户的基于VM的Dataproc集群

、、、

我通过Terraform脚本使用服务帐户创建了Dataproc集群。集群有一个主服务器和两个工作人员，因此三个Compute引擎实例被创建为这个集群创建的一部分。我的问题是- 为什么这些VM有默认服务帐户？他们不应该使用我用来创建dataproc集群的相同的服务帐户吗？编辑:删除评论中建议的一个问题(主题变得过于宽泛)

浏览 2提问于2021-02-25得票数 2

2回答

Dataproc的基本概念:它是如何操作的？

、

我正在尝试理解dataproc的操作方面。比方说，我在云存储桶中有一堆csv文件，我有一个单独的Python脚本来读取它们，执行一些聚合，并将数据保存到bigquery。这就是它在一台机器上的工作方式。如果我创建一个dataproc集群，并让该集群节点同时运行该脚本，那么如何在集群节点之间实现并行化呢？每个节点会尝试读取所有文件并进行聚合，还是每个节点都会自动读取各自的子集？我只是试图掌握它将如何运作。谢谢。

浏览 2提问于2018-11-24得票数 1

2回答

如何在dataproc集群上重新启动hadoop服务？

、、

我可能是用错误的词搜索，但谷歌并没有告诉我如何做到这一点。问题是，在更改一些配置文件(纱线属性等)之后，如何在Dataproc上重新启动hadoop服务？整个集群都必须按照特定的顺序重新启动服务。必须有脚本或工具，希望在Dataproc安装中，我可以调用这些脚本或工具来重新启动集群。

浏览 10提问于2017-04-03得票数 6

回答已采纳

3回答

是否可以使用Google Dataproc上的初始化脚本向集群提交作业？

、

我在1个集群上使用1个作业的Dataproc。我希望在创建群集后立即开始我的作业。我发现实现这一点的最佳方法是使用如下所示的初始化脚本提交作业。 function submit_job() { echo "Submitting job..." gcloud dataproc jobs submit pyspark ... } export -f submit_job function check_running() { echo "checking..." gcloud dataproc clusters list --region=

浏览 54提问于2021-09-03得票数 3

回答已采纳

1回答

为什么我不能创建一个同时安装了Jupyter和DataLab的Google DataProc集群？

、、

我想在DataProc中创建一个同时安装了Jupyter和DataLab的集群(我知道它们非常相似，但团队成员有不同的偏好)。我可以用它们中的任何一个来创建集群：使用Jupyter的集群： gcloud dataproc clusters create $DATAPROC_CLUSTER_NAME_JUPYTER \ --project $PROJECT \ --bucket $BUCKET \ --zone $ZONE \ --initialization-actions gs://dataproc-initialization-actions/connectors/connectors

浏览 36提问于2019-04-05得票数 1

回答已采纳

2回答

集群创建后如何在GCP上运行集群初始化脚本

、、

我已经创建了Google集群，但是需要安装presto，因为我现在有一个要求。Presto作为Dataproc 上的初始化操作提供，如何在创建集群后运行此初始化操作。

浏览 4提问于2017-10-20得票数 0

回答已采纳

2回答

如何按服务帐户创建dataproc群集

、

我对这份文件感到很困惑 Service account requirements and Limitations: * Service accounts can only be set when a cluster is created. * You need to create a service account before creating the Cloud Dataproc cluster that will be associated with the service account. * Once set, the service account used for a clust

浏览 0提问于2018-09-18得票数 0

回答已采纳

1回答

GCP Dataproc自定义图像Python环境

、、、

我有一个问题，当我创建一个DataProc自定义图像和Pyspark。我的自定义镜像基于DataProc 1.4.1-debian9，并使用我的初始化脚本从一个requirements.txt文件安装python3和一些包，然后设置python3环境变量以强制pyspark使用python3。但是，当我在使用此镜像创建的集群上提交作业时(为简单起见，使用单节点标志)，该作业找不到已安装的包。如果我登录集群机器并运行pyspark命令，则会启动Anaconda PySpark，但如果我以根用户身份登录并运行pyspark，则Python3.5.3中会有pyspark。这是一个非常奇怪的问题。我不

浏览 23提问于2019-07-12得票数 7

回答已采纳

1回答

尝试在Dataproc上提交作业时出现"ImportError:没有名为pandas的模块“

、、

我正在使用Python Client Library for Google Cloud Dataproc运行一个脚本，它可以自动提供集群、提交作业等。但在尝试提交作业时，它返回ImportError: no module named pandas。我导入pandas，以及运行作业的脚本中的其他几个包。我不知道如何绕过这个问题。那么这有意义吗？ #!/bin/bash ROLE=$(/usr/share/google/get_metadata_value attributes/dataproc-role) if [[ "${ROLE}" == '

浏览 1提问于2017-09-23得票数 0

2回答

从谷歌的数据流程中读取S3数据

、、、

我在自己创建的集群上通过Google的dataproc运行一个pyspark应用程序。在一个阶段，应用程序需要访问亚马逊S3目录中的目录。在那个阶段，我得到了错误： s3访问密钥ID和秘密访问密钥必须分别指定为AWS URL的用户名或密码，或者分别通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性来指定。我登录到集群的头节点，并使用我的AWS_ACCESS_KEY_ID和AWS_SECRET_ACCESS_KEY信息设置/etc/boto.cfg，但这并没有解决访问问题。 (1)关于如何从dataproc集群访问亚马逊网络服务S3，还有其他

浏览 12提问于2016-09-08得票数 2

2回答

云-sql- GCP Dataproc代理失败，nc:连接到本地主机端口3306 (tcp)失败:连接被拒绝

、

我使用Terraform创建一个dataproc集群，该集群使用GCP实例作为hivemetastore，terrafrm项目创建集群及其所有先决条件(网络、服务帐户、cloudsql实例和用户等)。提供了来帮助解决这个问题，但是当创建集群时，cloud-sql-proxy.sh失败了，但是我无法让它工作： nc:连接到本地主机端口3306 (tcp)失败:连接被拒绝我把头撞在墙上，试图找出原因，但找不到原因，所以我希望这里的人能帮上忙。我在主持了terraform项目。复制问题非常容易，请执行以下步骤：如果你还没有如果您还没有安装gcloud 创建一个新的GCP

浏览 1提问于2019-03-02得票数 1

回答已采纳

1回答

气流1.10中数据簇创建的重试

、、

你好，我需要帮助的是Airflow.We使用气流1.10。如果任务fails.We在气流2.0中确实有重试参数，我们需要重新尝试创建和删除dataproc集群的任务，但是我们没有任何这样的参数来重新尝试创建和删除气流1.1中的集群。如果创建或删除dataproc集群失败，那么我们可以尝试重新创建它。

浏览 8提问于2022-04-25得票数 1

回答已采纳

1回答

从运行在Dataproc集群上的Rstudio连接到BigQuery

、、、、

我创建了一个Dataproc集群，并使用以下说明成功启动了RStudio服务器：https://cloud.google.com/solutions/running-rstudio-server-on-a-cloud-dataproc-cluster 我还成功地安装了sparklyr并创建了Spark实例。 sc <- spark_connect(master = "local") 但是，我想知道如何连接到BigQuery。有一个sparkbq库，但是我不确定如何传递这里描述的bigquery jar连接器(在运行时)：https://cloud.google.com/

浏览 15提问于2020-11-28得票数 1

回答已采纳

2回答

如何在GCP集群模式下运行spark作业？

、、

在GCP中，我们希望在一个data[proc集群]上以集群模式运行一个spark作业。目前，我们使用以下命令：- gcloud dataproc jobs submit spark --cluster xxxx-xxxx-dataproc-cluster01 --region us-west2 --xxx.xxxx.xxx.xxx.xxx.xxx.xxxx.xxxx --jars gs://xxx-xxxx-poc/cluster-compute/lib/xxxxxxxx-cluster-computation-jar-0.0.1-SNAPSHOT-allinone.jar --propert

浏览 14提问于2020-03-16得票数 2

1回答

如何在上安装木星笔记本

、、、

我已经在dataproc上创建了3节点集群。现在，我不想删除集群并使用初始化操作重新创建jupyter安装。有人能告诉我如何在现有的dataproc集群上安装jupyter吗？ -Revan

浏览 1提问于2019-01-21得票数 3

1回答

在dataproc集群上运行HDFS命令(如果不能将SSH放到主节点上)

、

如果不能将HDFS命令提交到主节点，那么是否可以在Dataproc集群上提交HDFS命令。我在Gcloud或rest中找不到任何东西。所以，就像： gcloud dataproc jobs submit hdfs 'ls /hdfs/path/' --cluster=my-cluster --region=europe-west1

浏览 0提问于2018-11-08得票数 2

回答已采纳

1回答

直接在GCP dataproc集群上启动的交互式pyspark会话默认表单元的错误

、、、、

在GCP上，我有时会收到这样的消息 AnalysisException: "Database 'default' not found;" 从我所做的研究中，我了解到这与蜂箱表有关。也许我应该显式地告诉hive.xml文件在哪里。我看到我有这份文件 ./etc/hive/conf.dist/hive-site.xml 其他一些可能很重要的文件包括 ./usr/local/share/google/dataproc/bdutil/conf/hive-template.xml ./usr/local/share/google/dataproc/bdutil/conf/

浏览 0提问于2019-01-23得票数 1

2回答

错误:启动Dataproc群集时资源项目的权限被拒绝

、

我成功地通过gcloud dataproc clusters create...手动创建了一个dataproc集群。但是，当我尝试通过脚本(自动提供和停止集群)启动一个集群时，它显示为ERROR: (gcloud.dataproc.clusters.create) PERMISSION_DENIED: Permission denied on resource project hail-test-project (#0)。我不明白为什么，因为脚本使用了相同的命令。

浏览 0提问于2017-09-27得票数 11

1回答

如何在Google Dataproc集群中安装和运行pip

、、、

我使用以下命令在谷歌DataProc中创建了一个集群： gcloud beta dataproc clusters create my-cluster \ --project my-project \ --bucket my-bucket \ --region my-region \ --zone my-zone \ --num-workers 5 \ --service-account my-service-account \ --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/conne

浏览 10提问于2020-01-29得票数 2

回答已采纳

1回答

找不到Google Dataproc初始化脚本错误文件

、

我正在使用Google Dataproc初始化一个Jupyter集群。首先，我使用了github中提供的"dataproc-initialization-actions“，它的工作方式非常出色。这是文档中提供的创建集群调用： gcloud dataproc clusters create my-dataproc-cluster \ --metadata "JUPYTER_PORT=8124" \ --initialization-actions \ gs://dataproc-initialization-actions/jupyter

浏览 10提问于2016-08-13得票数 1

回答已采纳

2回答

如果一个作业失败，托管Dataproc群集将终止所有作业。

我试图在托管的DataProc集群上运行猪作业。我有几个独立的猪作业并行运行。我已经将每个作业的continueOnFailure设置为真。现在，如果其中一个作业失败了，所有其他作业都会停止，集群将被终止。我不想那样，我希望失败的工作被终止，其他的工作按预期的方式运行。我正在实例化的yaml文件如下： jobs: - pigJob: continueOnFailure: true queryList: queries: - sh pqr.sh stepId: run-pig-pqr - pigJob: continueOnFailure:

浏览 5提问于2019-11-07得票数 1

回答已采纳

2回答

在dataproc中运行星火作业

、、、

我已经创建并成功地测试了一个项目，该项目使用样本数据在本地运行。运行整个管道作业的Bash文件： cp -r ../data . # transfer data used for job docker-compose up --build -d docker exec project_master_1 bin/spark-submit \ --py-files /project/utils.py\ /project/main.py docker cp project_master_

浏览 0提问于2018-10-19得票数 1

6回答

在所有作业完成后自动关闭Google Dataproc集群

、

在所有作业完成后，如何以编程方式自动关闭Google Dataproc集群？ Dataproc 的创建、监控和管理。但是我似乎找不到删除集群的方法。

浏览 6提问于2017-05-08得票数 7

2回答

创建Google Cloud Dataproc集群时出错-无法访问初始化代理脚本

、、、

我正在尝试使用以下命令创建我的第一个Google Cloud Dataproc集群： gcloud dataproc clusters create hive-cluster \ --scopes sql-admin \ --image-version 1.3 \ --initialization-actions "gs://goog-dataproc-${PROJECT}:${REGION}:hive-metastore" \ --master-machine-type n1-standard-1 \ --ma

浏览 27提问于2020-01-16得票数 1

回答已采纳

2回答

在GCP数据流程上运行Bash脚本

、

我想在Dataproc上运行shell脚本，它将执行我的带参数的Pig脚本。这些参数始终是动态的，并由shell脚本计算。目前，在script-runner.jar的帮助下，这些脚本在AWS上运行。我不确定如何将其移动到Dataproc。有没有类似的东西可用于Dataproc？否则我将不得不更改我所有的脚本，并在pig sh或pig fs的帮助下计算Pig中的参数

浏览 20提问于2019-10-14得票数 4

回答已采纳

1回答

如何在集群中安装python包

、、、

在创建和运行集群之后，可以在集群中安装python包吗？我试图在主命令行中使用"pip install xxxxxxx“，但它似乎不起作用。 Google的Dataproc文档没有提到这种情况。

浏览 1提问于2018-05-10得票数 11

回答已采纳

1回答

如何调度BigQuery和Dataproc用于机器学习

、、、、

我想把我的火车模型安排在dataproc上，我需要： 1/请求Bigquery并为我的数据集2/创建我的dataproc集群3/启动我的火花放电作业4/删除我的集群我想为这个创造一个cron，我怎么能做这个？谢谢

浏览 0提问于2016-10-30得票数 2

1回答

在Dataproc集群中启用其他身份验证作用域

、

我试图在一个Dataproc集群中运行一个Spark (scala)作业，它需要连接到同一个项目中的Pub/Sub请求订阅，但是我得到了下面的错误消息。我猜想我的Dataproc集群中的机器缺少一个“”范围。我是否可以向Dataproc集群的机器添加其他身份验证作用域？ Exception in thread "main" com.google.api.client.googleapis.json.GoogleJsonResponseException: 403 Forbidden { "code" : 403, "errors"

浏览 5提问于2015-10-19得票数 3

回答已采纳

2回答

为什么spark内容的默认并行度与vCPU的数量不同？

、、、、

我已经用下面的代码片段在Google Cloud Platform Dataproc中创建了一个集群： gcloud dataproc clusters create $SOLO \ --project $PROJ \ --bucket $STORAGE \ --region $REGION \ --image-version 1.4-ubuntu18 --single-node \ --master-machine-type n1-standard-8 \ --master-boot-disk-type pd-ssd --master-boot

浏览 3提问于2020-05-26得票数 1

2回答

随着Dataproc img版本2.0.39-ubuntu18 18的增加，GCP云日志记录成本增加

、、

我有一个带有映像版本- 2.0.39-ubuntu18 18的Dataproc集群，它似乎将所有日志都放入了云日志记录中，这大大增加了我们的成本。下面是用于创建集群的命令，我添加了以下命令- spark:spark.eventLog.dir=gs://dataproc-spark-logs/joblogs，spark:spark.history.fs.logDirectory=gs://dataproc-spark-logs/joblogs 若要停止使用云日志记录，请执行以下操作。日志也被重新定向到云日志记录。下面是用于创建Dataproc集群的命令： REGION=us-east1 ZO

浏览 16提问于2022-05-30得票数 1

回答已采纳