如何在Python中遍历GCP项目中的所有DataProc集群？_如何在从GCP dataproc集群中旋转的datalab实例中强制python版本同步？ - 腾讯云开发者社区

google-cloud-platform、google-cloud-dataproc、billing、dataproc

我想通过拥有多个机器类型来分析每个Dataproc集群的实际成本，但是我看不到任何选项来获取GCP项目中单个dataproc集群的成本细节，在GCP控制台中，我们可以看到每个dataproc集群的计费细节或成本细节吗？

浏览 15提问于2022-11-27得票数 0

1回答

google dataproc可以使用gcs-connector访问其他项目的云存储吗？

google-cloud-platform、google-cloud-storage、google-cloud-dataproc

我想使用hadoop文件系统API访问跨gcp项目的云存储，以读取拼图、avro和序列文件。如果我在一个名为"proj1“的gcp项目中设置了一个dataproc集群，如何使用"proj1”中的dataproc集群来读取其他名为"proj2“的gcp项目中的云存储文件？

浏览 15提问于2020-12-21得票数 1

1回答

使用DataProcPySparkOperator时无法配置GCP项目

python-3.x、google-cloud-platform、airflow、google-cloud-composer

我正在使用Cloud Composer环境在GCP项目中运行工作流。我的一个工作流使用DataprocClusterCreateOperator在不同的项目中创建了一个Dataproc集群，然后尝试使用来自airflow.contrib.operators.dataproc_operator模块的DataProcPySparkOperator向该集群提交PySpark作业。要创建集群，我可以指定一个project_id参数来在另一个项目中创建它，但是DataProcPySparkOperator似乎忽略了这个参数。例如，我希望能够传递一个project_id，但当任务运行时，我最终得到了一

浏览 22提问于2020-08-13得票数 0

回答已采纳

1回答

我们如何与Dataproc Metastore交互以获取数据库和表的列表？

google-cloud-platform、google-cloud-dataproc、hive-metastore、google-cloud-dataproc-metastore

我使用Dataproc亚稳态作为GCP的metastore服务。我如何与它交互以从中获取数据库和表的列表？在不运行dataproc集群的情况下，可以执行此吗？编辑-我必须在不运行Dataproc集群的情况下获取元数据。由于我使用Dataproc Metastore服务来存储元数据，所以需要直接从它获取元数据。

浏览 3提问于2021-06-10得票数 3

1回答

如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据？

google-cloud-dataproc

我所在的组织需要使用Spark从客户的bigquery数据集中提取数据，考虑到客户和我们都使用GCP，使用Dataproc来实现这一点是有意义的。我读过，它看起来非常有用，但是它似乎假设dataproc集群、bigquery数据集和临时BigQuery导出的存储桶都在同一个GCP项目中-对我来说并非如此。我有一个服务帐户密钥文件，它允许我连接到存储在bigquery中的客户数据并与之交互，我如何将该服务帐户密钥文件与BigQuery连接器和dataproc结合使用，以便从bigquery中提取数据并在dataproc中与其交互？换句话说，我如何修改提供的代码以使用我的服务帐户密钥文件？

浏览 2提问于2018-11-02得票数 0

2回答

如何在Google Cloud Platform中随时查看正在使用的Dataproc集群数量？

google-cloud-platform、cloud、google-cloud-dataproc

如何在Google Cloud Platform中随时查看正在使用的Dataproc集群数量？如果是，我们也需要在GCP中可视化的方法。

浏览 4提问于2018-10-08得票数 0

1回答

：具有"Dataproc Viewer“角色的用户不能列出Dataproc集群

google-cloud-platform

在一个新的GCP项目中，我创建了一个Dataproc集群，并创建了一个具有"Dataproc Viewer“角色的用户(在otehrs中)。这个用户现在可以成功地执行gcloud dataproc clusters list，并显示集群列表。但是，当同一个用户导航到云控制台中的"Dataproc“->”群集“页面时，会显示错误。错误消息没有提到是否缺少一些访问权限，但它看起来更像是一个“内部错误”，并且有“重试”按钮，但是重试没有帮助。其他具有Editor角色的用户可以在云控制台中看到集群列表。问题是:除了来自"Dataproc Viewer“角色的权限之外，

浏览 0提问于2020-04-24得票数 1

回答已采纳

2回答

如何在虚拟机GCP中安装spark-bigquery-connector？

python、apache-spark、hadoop、google-cloud-platform、google-bigquery

我在GCP中有一个带有spark install的VM镜像集群Hadoop，但它不是一个dataproc。我可以在不使用dataproc的情况下安装spark bigquery连接器吗？如果是，我该怎么做？我找到了下载连接器的链接

浏览 0提问于2020-11-14得票数 0

3回答

GCP | dataproc |如何创建持久的HDFS卷意味着即使你删除了dataproc集群，它也不应该删除HDFS？有可能吗？

google-cloud-platform、hdfs、nfs、google-cloud-dataproc、dataproc

GCP dataproc -当您终止dataproc集群时，HDFS会自动删除。如何使其持久化HDFS即使您删除了dataproc集群，它也不应该删除HDFS？有可能吗？

浏览 7提问于2021-05-12得票数 2

1回答

获取/bin/bash^M:糟糕的解释器:在Dataproc上运行初始化脚本后没有这样的文件或目录

google-cloud-platform、google-cloud-dataproc、gcs

当我试图在GCP中创建Dataproc集群时，我会得到以下错误。我正在使用windows机器对GCS进行更改，这将用于初始化dataproc集群。 /tmp/dataproc-agent1435981490491006254/initialize-env.sh: /etc/google-dataproc/startup-scripts/dataproc-initialization-script-0: /bin/bash^M:糟糕的解释器:没有这样的文件或目录

浏览 7提问于2022-08-24得票数 2

回答已采纳

1回答

GCP dataproc和presto有一种方法可以通过python使用pyhive远程运行查询吗？

python、google-cloud-platform、presto、google-cloud-dataproc、presto-jdbc

我试图在我在dataproc上运行的presto集群上运行查询--通过本地机器上的python (使用pyhive的presto )。但我似乎找不出主机的网址。GCP dataproc甚至允许远程访问presto集群吗？我试着在Presto的web上使用URL，但这也不起作用。我还检查了有关使用云客户端库用于Python的文档。也没什么用。 from pyhive import presto query = '''select * FROM system.runtime.nodes''' presto_conn = presto.Conne

浏览 6提问于2021-09-08得票数 2

1回答

如何精确地将本地Hadoop配置模拟为GCP数据流程

hadoop、google-cloud-platform、google-cloud-dataproc

Dataproc是一种基于GCP的Apache-Hadoop。我需要一些关于集群配置的术语的明确性。假设我使用本地Hadoop集群配置了1个namenode和n个数据节点。我是否需要在Dataproc上有1个主节点和n个工作节点与之对应。我还想利用Dataproc的自动缩放功能。在将本地Hadoop基础架构迁移到GCP Dataproc时，我们是否有任何需要遵循的标准检查清单？

浏览 13提问于2019-12-03得票数 2

回答已采纳

1回答

在Visual Studio Code上编辑和运行Google Cloud Platform中的Jupyter笔记本

visual-studio-code、google-cloud-platform、jupyter-notebook、google-cloud-storage、google-cloud-dataproc

我有一个运行在GCP上的Dataproc集群，安装了Jupyter组件，它将笔记本存储到GCS上集群的临时存储桶中，并直接通过Dataproc的Jupyter web界面进行编辑。有没有办法使用VSCode直接从GCS编辑和运行(使用jupyter扩展)我机器上的笔记本，这样我仍然可以使用集群的计算资源和GCP中的在线数据？

浏览 41提问于2021-08-17得票数 2

1回答

Dataproc Workflow(临时集群)还是Dataproc Serverless用于批处理？

data-processing、dataproc、google-cloud-dataproc-serverless

GCP Dataproc提供了用于火花批处理的无服务器(Dataproc Serverless)和临时集群(Dataproc Workflow模板)。如果Dataproc无服务器可以隐藏基础设施的复杂性，那么我想知道通过Dataproc工作流使用Dataproc临时集群进行火花批处理的业务用途是什么？

浏览 5提问于2022-08-31得票数 0

1回答

GCP Dataproc集群中的工作流调度

hadoop、airflow、google-cloud-dataproc、google-cloud-composer、oozie-workflow

我有一些复杂的Oozie工作流要从迁移到GCP。工作流由shell脚本、Python脚本、Scala作业、Sqoop作业等组成。我遇到了一些可能的解决方案，其中包含了我的工作流调度需求：具有云调度的ComposerDataproc工作流模板Cloud 在Dataproc自动缩放集群上安装Oozie 请告诉我，在业绩、成本计算和迁移复杂性方面，哪一种选择最有效。

浏览 4提问于2019-12-02得票数 4

回答已采纳

1回答

如何在云日志中获取GCP分区故障事件/活动日志

google-cloud-platform、google-cloud-functions、google-cloud-dataproc、stackdriver、google-cloud-stackdriver

我想通过分区故障日志触发云函数，在分区故障时自动创建一个dataproc集群。由于我在GCP中没有看到/经历过区域故障，所以我如何在GCP中获取区域故障的示例活动/事件日志，以创建一个带有pub/sub的日志接收器来触发云函数。如果有任何其他最佳实践可以缓解dataproc群集的区域故障，请提供建议。

浏览 36提问于2020-07-17得票数 1

2回答

您能从Dataproc触发Python脚本吗？

python、hadoop、google-cloud-platform、google-cloud-dataproc、gcs

我在用GCP做实验。我在Hadoop有一个本地环境。它由存储在HDFS上的文件和一堆编写API调用并触发猪作业的python脚本组成。这些python作业是通过cron调度的。我想了解在GCP中做类似事情的最佳方法。我知道我可以使用GCS作为HDFS的替代品。该Dataproc可用于拆分Hadoop集群并运行Pig作业。是否有可能将这些Python脚本存储到GCS中，有一个类似cron的时间表来拆分Hadoop集群，并指向GCS中的这些Python脚本来运行呢？

浏览 10提问于2022-03-31得票数 2

回答已采纳

1回答

如何使用Dataproc中的木星笔记本获取GCS桶中的文件列表？

python、google-cloud-platform、jupyter-notebook、google-cloud-storage、google-cloud-dataproc

我最近开始在我的项目中使用GCP，在使用Dataproc集群中木星笔记本的桶时遇到了困难。目前，我有一个水桶，里面有一堆文件，还有一个Dataproc集群，上面有一个木星笔记本。我要做的是检查桶中的所有文件，并从它们中提取数据以创建数据。我可以使用以下代码一次访问一个文件：data = spark.read.csv('gs://BUCKET_NAME/PATH/FILENAME.csv')，但是有数百个文件，而且我不能为每个文件编写一行代码。通常，我会这样做： import os for filename in os.listdir(directory): `...` 但这

浏览 2提问于2021-05-13得票数 3

回答已采纳

1回答

在GCP上运行Tensorflow应用程序的最佳实践？

tensorflow、google-cloud-platform、google-cloud-dataproc、google-cloud-ai

我希望运行一个Python应用程序，它使用Tensorflow运行模拟并将结果输出到csv文件。我想在GCP上运行它。我的计划是使用Tony在Dataproc集群中运行它。似乎有很多做ML的GCP方法，比如使用AI Platform，我想知道是否有更容易/更好的方法来实现我的目标。

浏览 16提问于2020-03-31得票数 0

回答已采纳

2回答

GCP Dataproc sqoop数据(或运行其他作业)可以从本地DB吗？

google-cloud-platform、sqoop、google-cloud-dataproc、google-cloud-vpn

GCP Dataproc sqoop能否从本地DB导入数据到GCP存储(没有GCP VPC)？我们有一个远程Oracle DB通过VPN隧道连接到本地网络，我们使用Hadoop集群通过Apache提取每天的数据。希望用集群替换此进程，以运行sqoop作业和GCP存储。发现这篇文章似乎在做一些类似的，但它假设用户有GCP (我不打算购买)。所以我的问题是：如果没有这个VPC连接，云dataproc集群会知道如何使用从本地网络上的DB中获取数据吗？如果是这样的话，这将如何工作(也许我对Hadoop作业如何工作/获取数据还不太了解)？如果不是的话还有别的办法吗？

浏览 1提问于2019-03-11得票数 0

回答已采纳

2回答

如何在GCP集群模式下运行spark作业？

apache-spark、google-cloud-platform、google-cloud-dataproc

在GCP中，我们希望在一个data[proc集群]上以集群模式运行一个spark作业。目前，我们使用以下命令：- gcloud dataproc jobs submit spark --cluster xxxx-xxxx-dataproc-cluster01 --region us-west2 --xxx.xxxx.xxx.xxx.xxx.xxx.xxxx.xxxx --jars gs://xxx-xxxx-poc/cluster-compute/lib/xxxxxxxx-cluster-computation-jar-0.0.1-SNAPSHOT-allinone.jar --propert

浏览 14提问于2020-03-16得票数 2

2回答

如何访问Dataproc集群元数据？

google-cloud-platform、google-cloud-dataproc

在创建集群之后，我尝试检索其他组件的URL地址(不使用GCP仪表板)。我使用的是de Dataproc python API，更具体地说是get_cluster()函数。该函数返回了大量数据，但我无法找到Jupyter网关URL或其他元数据。 from google.cloud import dataproc_v1 project_id, cluster_name = '', '' region = 'europe-west4' client = dataproc_v1.ClusterControllerClient(

浏览 16提问于2020-01-06得票数 3

回答已采纳

1回答

了解GCP Dataproc帐单及其受标签的影响

google-cloud-platform、billing、google-cloud-dataproc

我正在努力确保我对我的组织是如何为Google平台Dataproc计费的有一个清晰的理解。我们已经导出了我们的帐单历史到BigQuery，以便我们可以分析它。今天上午，我们运行了两个dataproc集群，下面的屏幕截图显示了这两个集群的计费历史的子集。我在labels.key = "goog-dataproc-cluster-uuid" or labels.key = "goog-dataproc-cluster-name" or labels.key = "goog-dataproc-location"上过滤过了。以下是结果的子集

浏览 0提问于2018-07-06得票数 2

回答已采纳

1回答

Dataproc: pyspark UDF的functools.partial no attribute 'module‘错误

pyspark、user-defined-functions、google-cloud-dataproc、functools

我正在使用GCP/Dataproc进行一些spark/graphframe计算。在我的私有spark/hadoop独立集群中，在定义pysparkUDF时使用functools.partial是没有问题的。但是，现在使用GCP/Dataproc，我有一个问题，如下所示。以下是检查partial是否正常工作的一些基本设置。 import pyspark.sql.functions as F import pyspark.sql.types as T from functools import partial def power(base, exponent): return ba

浏览 4提问于2018-08-01得票数 0

1回答

在每个用户/每次运行的基础上实施GCP计费的策略是什么？

google-cloud-platform、google-cloud-dataproc

我们正在开发一种方法来自动化在GCP上运行Dataproc的过程(从启动集群到提交作业，再到终止集群)来进行基因组分析。最终，我们想知道在Dataproc的每一个自动化“运行”中花费了多少钱，特别是当我们向其他用户开放我们的程序时。因此，我们还想自动化(如果可能的话)将Dataproc成本归因于某个GCP用户的过程(“run”)。这样，在每个月底，我们就可以看到每个用户花费了多少钱，特别是用于什么个人项目。实施这一目标的好策略是什么？我已经考虑过为每个用户/客户端创建一个单独的GCP项目，并将它们绑定到一个特定的计费帐户，但是是否有更好的方法来管理这些？

浏览 2提问于2018-02-07得票数 2

回答已采纳

1回答

未能执行作业，原因是没有注册的火花工人

apache-spark、apache-spark-sql、google-cloud-dataproc

当我试图在GCP Dataproc集群上执行Spark查询时，我看到了一个错误：初始作业未接受任何资源；请检查群集用户界面，以确保员工已注册并拥有足够的资源。我已经检查了我的工作节点，它们95%可用，但我仍然面临着这个问题。在另一篇文章中，我得到了一个关于释放工作节点的建议，有人能让我知道如何释放GCP中的工作节点吗？

浏览 2提问于2019-12-12得票数 1

1回答

在GCP中的Apache配置-无线索？

google-cloud-platform、google-compute-engine、g-suite

我尝试使用Google平台上的以下链接在GCP中配置Apache集群。 https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc 我已经建立了一个项目，并有整整几年的学分可用。本页面中提到的脚本使用Google来混淆集群，而不是使用GCP。这就是问题所在，我执行上述所有步骤，就在我要使用以下命令创建集群时--“它失败了”!！ gcloud dataproc clusters create hive-cluster. \ --scopes sql-admin \ --image-version

浏览 0提问于2019-03-10得票数 0

1回答

无法创建Dataproc群集

python、google-cloud-platform、google-cloud-dataproc

我尝试通过气流和Google创建Dataproc集群，而集群的创建始终失败。以下是我用来创建集群的气流代码- # STEP 1: Libraries needed from datetime import timedelta, datetime from airflow import models from airflow.operators.bash_operator import BashOperator from airflow.contrib.operators import dataproc_operator from airflow.utils import trigger_rul

浏览 0提问于2020-09-15得票数 3

回答已采纳

1回答

在GCP集群上运行Dask脚本

google-cloud-platform、dask

我是#GCP的新手，我的问题可能看起来微不足道(很抱歉)。我已经使用Dask开发了我的python代码的分布式版本。现在，我将在#Google_Cloud上检查代码的可伸缩性和性能。为此，我将使用"dataproc“来创建一个集群。但我的问题是，我不知道如何在集群上运行我的python-dask脚本。据我所知，我应该在dataproc上创建一个初始化脚本，我知道如何设置一个初始化脚本来安装conda或其他软件或库，但是以这种方式编写一个能够在集群上运行dask代码的脚本对我来说有点含糊。有谁能解释一下初始化脚本示例，以便在具有1个主节点和2个客户端的clusetr中运行示例pytho

浏览 10提问于2019-02-09得票数 0

1回答

GCP Dataproc :用于火花作业的CPU和内存

apache-spark、memory、google-cloud-platform、cpu、google-cloud-dataproc

我对GCP完全陌生。是用户必须管理驱动程序和工作人员分配的内存量以及在Dataproc集群中运行Spark作业的CPU数量吗？如果是，那么Dataproc使用的弹性有哪些方面？谢谢。

浏览 1提问于2019-08-21得票数 1

回答已采纳

1回答

从Dataproc集群访问GKE集群中的Postgres

google-cloud-platform、google-kubernetes-engine、google-cloud-dataproc、gke-networking

我在GCP中有两个集群。 GKE集群，它只使用Kubernetes安装postgres。 dataproc集群。现在，如果我将postgres的服务作为内部负载平衡以提供安全性，我可以使用我的VPN配置来访问它。但是从dataproc集群访问Postgres时出现了问题。这次交流没有成功。因此，我不得不使postgres公共负载平衡。我想在这里提出建议，我们如何才能在这里实现安全。但是，Dataproc集群仍然应该可以访问数据库，从而减少了对数据库的访问。

浏览 3提问于2021-10-20得票数 2

回答已采纳

1回答

如何使用composer在dataproc上运行Notebook

google-cloud-platform、google-cloud-dataproc、google-cloud-composer

我在dataproc上有一个Jupyter笔记本，它使用dataproc进行处理。我还将这个笔记本存储在gcs上的一个位置"gc:/bucket/...“。我想创建一个编写器工作流，以便在我现有的dataproc集群上运行此笔记本。这在GCP中是可能的吗？

浏览 30提问于2020-09-23得票数 2

2回答

云-sql- GCP Dataproc代理失败，nc:连接到本地主机端口3306 (tcp)失败:连接被拒绝

google-cloud-dataproc、cloud-sql-proxy

我使用Terraform创建一个dataproc集群，该集群使用GCP实例作为hivemetastore，terrafrm项目创建集群及其所有先决条件(网络、服务帐户、cloudsql实例和用户等)。提供了来帮助解决这个问题，但是当创建集群时，cloud-sql-proxy.sh失败了，但是我无法让它工作： nc:连接到本地主机端口3306 (tcp)失败:连接被拒绝我把头撞在墙上，试图找出原因，但找不到原因，所以我希望这里的人能帮上忙。我在主持了terraform项目。复制问题非常容易，请执行以下步骤：如果你还没有如果您还没有安装gcloud 创建一个新的GCP

浏览 1提问于2019-03-02得票数 1

回答已采纳

2回答

Dataproc python API错误权限被拒绝

python-3.x、google-cloud-platform、google-cloud-dataproc

我试图通过python创建一个dataproc集群，我在包含凭据的json中使用了身份验证。 app = Flask(__name__) # Explicitly use service account credentials by specifying the private key # file. credentials_gcp = service_account.Credentials.from_service_account_file('credentials.json') client = dataproc_v1

浏览 0提问于2019-10-24得票数 3

回答已采纳

2回答

创建不超过配额的群集

google-cloud-platform、google-cloud-dataproc

当尝试创建dataproc集群时，我会得到“配额超出”错误。错误：(gcloud.beta.dataproc.clusters.create) INVALID_ARGUMENT：“DISKS_TOTAL_GB”配额不足。要求3000.0，可用2048.0。我已经更改了机器类型，并且将工作人员的数量减少到了2。此外，如果我指定了主引导磁盘大小和工人引导磁盘大小，就会得到一个无法识别的参数错误。我正在使用GCP免费层。我正在尝试遵循Google codelab - 的步骤。我为这个GCP项目启用了三个APIs - Compute Engine、Data和Big。我已经将机器类型设置为:工

浏览 0提问于2019-08-13得票数 4

回答已采纳

1回答

Google函数对其他GCP的身份验证

google-cloud-functions

我想编写一个Google函数，它可以与GCP的Dataproc服务交互，以编程方式启动Dataproc集群。我们已经有了一个经过战斗的Dataproc基础设施，我们只是想扩展它们的启动方式。我们的Dataproc集群只能使用已经是适当IAM角色成员的适当IAM服务帐户启动，因此云函数需要使用该服务帐户对Dataproc服务进行身份验证。云函数使用服务帐户对其他GCP服务/API进行身份验证的最合适方式是什么？我怀疑的备选方案包括： *作为该服务帐户运行该功能 *提供一个JSON密钥文件&设置GOOGLE_APPLICATION_CREDENTIALS环境变量是否有一个公认的方法来

浏览 0提问于2019-07-09得票数 1

回答已采纳

3回答

为什么不推荐持久性Dataproc集群？

google-cloud-dataproc

我正在考虑运行一个持久化GCP Dataproc集群，该集群承载一个Hive服务器，它将提供一个HiveQL接口，用于查询和更新存储在Google中的长期数据，通过访问。我正在阅读以下文档：本文列出了短期集群的优点，但也提出了以下警告：如果没有持久集群无法完成您的工作，则可以创建一个集群。如果有一种方法可以在短暂的集群上完成您的工作，那么这个选项可能很昂贵，并且不建议使用。除了不能享受短暂的Dataproc集群所列出的优点之外，运行持久Dataproc集群还有其他的缺点/陷阱吗？我维护持久集群的主要动机是避免重新创建集群的任何管理开销。集群需要无限期地为Hive客户提供服务；

浏览 3提问于2022-01-11得票数 2

1回答

使用Java代码向DataProc集群添加标签

java、google-cloud-platform、google-cloud-dataproc

我是GCP的新手，目前我希望使用Java创建一个Dataproc集群，并为其添加特定的标签。对于集群创建，我使用以下代码： String clusterName = "XXXXXX"; String projectId = "YYYYYY"; String region = "us-central1"; String myEndpoint = String.format("%s-dataproc.googleapis.com:443", region); Cluste

浏览 33提问于2020-12-10得票数 2

回答已采纳

1回答

GCP Dataproc删除保护

google-cloud-platform、google-cloud-dataproc

我有一个bash脚本来在GCP中创建dataproc集群，并且想知道是否可以在同一个脚本中添加删除保护，以便默认启用删除保护。我尝试在脚本中添加--删除-保护，但是得到了这个错误：错误：(gcloud.beta.dataproc.clusters.create)不可识别的参数：--删除-保护

浏览 2提问于2022-09-27得票数 2

1回答

我如何通过Livy设置火花魔法来与DataProc一起工作？

pyspark、livy、dataproc

我在GCP中运行了一个DataProc集群。我为它运行了Livy初始化脚本，我可以通过网关接口访问livy/sessions链接。我为我的火花魔法config.json设置了以下内容： { "kernel_python_credentials" : { "auth": "None", "url": "https://{SERVER}.dataproc.googleusercontent.com/livy" }, "should_heartbeat

浏览 4提问于2021-12-30得票数 0

1回答

直接在GCP dataproc集群上启动的交互式pyspark会话默认表单元的错误

apache-spark、hive、pyspark、google-cloud-platform、google-cloud-dataproc

在GCP上，我有时会收到这样的消息 AnalysisException: "Database 'default' not found;" 从我所做的研究中，我了解到这与蜂箱表有关。也许我应该显式地告诉hive.xml文件在哪里。我看到我有这份文件 ./etc/hive/conf.dist/hive-site.xml 其他一些可能很重要的文件包括 ./usr/local/share/google/dataproc/bdutil/conf/hive-template.xml ./usr/local/share/google/dataproc/bdutil/conf/

浏览 0提问于2019-01-23得票数 1

1回答

如何通过气流为GCP VM/Dataproc集群分配外部和内部静态IP地址

google-cloud-platform、airflow、google-cloud-dataproc

在通过气流创建时，我们需要为GCP /Dataproc集群的主节点分配静态IP地址(外部和内部)。我们知道它可能从GCP控制台，但不确定它如何可以通过气流或编程。

浏览 4提问于2022-07-26得票数 1

1回答

在一个dataproc集群上运行多个数据融合复制作业

google-cloud-platform、google-cloud-data-fusion、change-data-capture

我目前正在分析GCP数据融合复制特性，以获取初始快照，然后是CDC。计划是每个表创建一个复制副本作业，因为创建复制作业后不支持添加新表。我尝试通过删除和创建同名的复制作业来创建一个表。但是，它会导致表的初始快照负载。话虽如此，为了克服上述2种情况，我计划在每个表中创建复制作业。但是，每个复制作业都会创建自己的dataproc集群，这将导致更多的成本。是否可以在一个dataproc自动标度集群上运行所有复制作业？注意:实例类型是基本的。

浏览 8提问于2022-12-04得票数 0

2回答

如何使用gcloud来查找我的dataproc集群所在的区域？

gcloud、google-cloud-dataproc

如果我发布gcloud dataproc clusters list 0集群，将列出： $ gcloud dataproc clusters list Listed 0 items. 但是，如果我指定区域gcloud dataproc clusters list --region europe-west1，我会得到一个集群列表： $ gcloud dataproc clusters list --region europe-west1 NAME WORKER_COUNT STATUS ZONE mydataproccluster1 2

浏览 0提问于2018-03-21得票数 4

回答已采纳

1回答

GCP Dataproc基础Docker镜像

docker、google-cloud-platform、dataproc

谁知道我在哪里可以找到GCP的数据处理程序的docker镜像？我使用过dataproc集群，发现它们相当不错，但我想在本地开发，只有在我准备好处理大型工作时才将我的计算转移到云上。我已经找到了一些可以与pyspark一起工作的docker图像，但我想得到一些像GCP dataproc一样流畅的东西。

浏览 27提问于2021-10-13得票数 0

回答已采纳

1回答

如何在创建Dataproc集群时运行Bash脚本作为初始化操作？

python、bash、shell、google-cloud-platform、google-cloud-dataproc

我希望Dataproc集群下载一个我创建的定制库，它不是pip可安装的，所以它需要用户从云源库中克隆它，然后执行sudo python setup.py install。我尝试创建一个bash脚本；创建集群时没有任何问题，但我认为它没有运行bash脚本，因为我没有注意到任何更改。下面是我想要初始化到集群的bash脚本： #! /bin/bash # download jars gsutil -m cp gs://dataproc-featurelib/spark-lib/*.jar . # download credential files gsutil -m cp gs://mlflo

浏览 13提问于2020-02-28得票数 3

回答已采纳

1回答

Google Dataproc Presto:如何使用Python运行查询

python、google-cloud-platform、presto、google-cloud-dataproc、trino

通过执行此中的步骤，我已经设置了一个运行Presto的Google Dataproc集群。它工作得很好，我可以通过gcloud命令行工具运行查询，如链接所示。 gcloud dataproc jobs submit hive \ --cluster presto-cluster \ --region=${REGION} \ --execute "SELECT COUNT(*) FROM chicago_taxi_trips_parquet;" 最后，本教程展示了如何通过java应用程序在Presto上运行查询。我正在尝试用Python找到类似的解决方案

浏览 13提问于2021-03-14得票数 3

1回答

gcp dataproc如何在交互式登录和ssh命令之间使用相同的python

python、bash、google-cloud-platform、google-cloud-dataproc

对于gcp dataproc集群，如果我使用ssh来运行命令 gcloud compute ssh --internal-ip mycluster-m some_command.sh 我得到的python是 /usr/bin/python 然而，当我登录的时候，我得到了一个system conda python -- /opt/conda/default/bin/python 在我的脚本中寻找.bashrc并没有帮助，而且我看到.bashrc有 # If not running interactively, don't do anything case $- in *i*)

浏览 6提问于2020-01-16得票数 3

1回答

如何在Google Dataproc集群中安装和运行pip

python、pip、jupyter-notebook、google-cloud-dataproc

我使用以下命令在谷歌DataProc中创建了一个集群： gcloud beta dataproc clusters create my-cluster \ --project my-project \ --bucket my-bucket \ --region my-region \ --zone my-zone \ --num-workers 5 \ --service-account my-service-account \ --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/conne

浏览 10提问于2020-01-29得票数 2

回答已采纳

1回答

Google到Server(基于centos 7)连接错误？

sql-server、pyspark、database-connection、sqoop、google-cloud-dataproc

我陷入了一个已经浪费了3天时间的问题。我有一个dataproc集群1.5，我还在运行centos 7 OS的google上安装了SQL Server。但是，我无法通过dataproc集群中的pyspark连接Server。您可以在附件中找到错误快照。SQL服务器上禁用SSL加密。我可以通过sqlcmd(安装在dataproc集群上)访问SQL服务器，也可以从dataproc集群通过PYMSSQL库访问SQL服务器。但不是用火花放电。在尝试从Sqoop访问MSSQL时也会发生相同的错误。请指导我，我已经尝试了所有可能的解决方案，在互联网上，但仍然没有我的运气。提前谢谢。我的连接字符串是： df

浏览 1提问于2021-02-18得票数 3

回答已采纳