我最近开始在我的项目中使用GCP,在使用Dataproc集群中木星笔记本的桶时遇到了困难。目前,我有一个水桶,里面有一堆文件,还有一个Dataproc集群,上面有一个木星笔记本。我要做的是检查桶中的所有文件,并从它们中提取数据以创建数据。
我可以使用以下代码一次访问一个文件:data = spark.read.csv('gs://BUCKET_NAME/PATH/FILENAME.csv'),但是有数百个文件,而且我不能为每个文件编写一行代码。通常,我会这样做:
import os
for filename in os.listdir(directory):
`...`
但这
我正在使用GCP/Dataproc进行一些spark/graphframe计算。
在我的私有spark/hadoop独立集群中,在定义pysparkUDF时使用functools.partial是没有问题的。
但是,现在使用GCP/Dataproc,我有一个问题,如下所示。
以下是检查partial是否正常工作的一些基本设置。
import pyspark.sql.functions as F
import pyspark.sql.types as T
from functools import partial
def power(base, exponent):
return ba
如果我发布gcloud dataproc clusters list 0集群,将列出:
$ gcloud dataproc clusters list
Listed 0 items.
但是,如果我指定区域gcloud dataproc clusters list --region europe-west1,我会得到一个集群列表:
$ gcloud dataproc clusters list --region europe-west1
NAME WORKER_COUNT STATUS ZONE
mydataproccluster1 2