如何在Dataproc中访问SparkContext？

文章/答案/技术大牛

发布

1回答

elasticsearch、pyspark、google-cloud-dataproc

我的目标是使用elasticsearch-hadoop连接器通过pySpark将数据直接加载到ES中。我对dataproc和pySpark非常陌生，很早就被卡住了。_lock:311 if not SparkContext._gateway: --> 312 SparkContext._gateway = g

浏览 6提问于2020-04-23得票数 1

回答已采纳

2回答

如何从星火作业中检索通过Dataproc提交的作业的jobId

apache-spark、spark-streaming、google-cloud-dataproc、dataproc

Dataproc是否将此信息存储在星火上下文中？

浏览 9提问于2022-06-17得票数 2

2回答

从谷歌的数据流程中读取S3数据

amazon-web-services、apache-spark、amazon-s3、google-cloud-dataproc

我在自己创建的集群上通过Google的dataproc运行一个pyspark应用程序。在一个阶段，应用程序需要访问亚马逊S3目录中的目录。在那个阶段，我得到了错误： s3访问密钥ID和秘密访问密钥必须分别指定为AWS URL的用户名或密码，或者分别通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey我登录到集群的头节点，并使用我的AWS_ACCESS_KEY_ID和AWS_SECRET_ACCESS_KEY信息设置/etc/boto.cfg

浏览 12提问于2016-09-08得票数 2

1回答

在星火集群中分发下载

apache-spark、pyspark、spark-dataframe

urlsRDD = sc.parallelize(["valid-url1.json","valid-url2.json","valid-url3.json"])如何在集群上分发如何在map函数上使用SparkContext / HiveContext / xContext

浏览 3提问于2017-11-26得票数 1

回答已采纳

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

scala、apache-spark、google-cloud-dataproc

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交，但有时我需要更容易地访问Scala/Java库，例如在映射函数

浏览 2提问于2020-03-08得票数 5

回答已采纳

2回答

从dataproc集群访问存储桶

google-cloud-dataproc、gcsfuse

我正在尝试从Dataproc集群访问存储在Google存储桶中的数据。然而，到目前为止，即使我声明我的存储桶文件是公开的，我的作业也会退出，并返回一个错误，即该文件不存在。我考虑尝试将存储桶挂载到集群计算机中的一个文件夹中。为此，我已经成功地在我的初始化脚本中安装了gcsfuse包，并且当我ssh进入集群时，我能够成功地使用gcsfuse将文件添加到我的根文件夹。我如何解决这个问题，以便从我的Dataproc集群访问公共存储桶中的文件

浏览 0提问于2018-05-01得票数 0

1回答

如何获取上传文件的路径

scala、apache-spark、google-cloud-dataproc

在下面的示例中，如何在初始化Configuration.properties之前读取SparkContext文件？我在用Scala。gcloud dataproc jobs submit spark --cluster my-cluster --class MyJob --files config/Configuration.properties

浏览 4提问于2017-01-16得票数 7

回答已采纳

2回答

我可以读取csv文件从谷歌存储使用星火在多个执行器？

scala、apache-spark、google-cloud-storage、google-cloud-dataproc

我在谷歌桶中压缩了几个csv文件，它们按小时分组在文件夹中，这意味着另一个应用程序将其中的几个文件保存在以小时为名称的文件夹中。我使用默认的Yarn配置在Dataproc中运行。

浏览 3提问于2020-04-13得票数 2

2回答

SparkContext:通过google DataProc运行火花作业时初始化SparkContext时出错

apache-spark、google-cloud-dataproc、numberformatexception

SparkContext :通过google DataProc运行火花作业时初始化SparkContext时出错val conf = new SparkConf().setAppName(getMai

浏览 5提问于2022-01-10得票数 3

1回答

数据过程中的Spark初始化失败- java.util.ServiceConfigurationError

java、apache-spark、google-cloud-platform、google-cloud-dataproc

正在尝试对dataproc运行spark作业。但这项工作甚至未能初始化spark context。App") .getOrCreate(); ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.util.ServiceConfigurationError: org.apache.hadoop.fs.File

浏览 234提问于2021-07-15得票数 2

2回答

如何以编程方式检测到他的代码正在Google Cloud上运行？

apache-spark、google-cloud-platform、google-cloud-dataproc

以确定代码是否在云中运行： def run_on_gcp(): return is_defined(os.env["ENVIRONMENT_VARIABLE"]) 我想知道什么是始终定义在谷歌云上并且可以从Dataproc实例访问的ENVIRONMENT_VARIABLE？

浏览 10提问于2019-02-16得票数 1

1回答

当启动Google集群用于朱庇特笔记本时，我如何包括额外的jars？

apache-spark、jupyter-notebook、google-cloud-dataproc

我遵循使用初始化脚本启动Google笔记本的DataProc集群的说明。我如何将额外的JAR文件(例如，星火-xml)包含在木星笔记本(特别是pyspark)中的结果SparkContext中？

浏览 1提问于2017-09-07得票数 5

回答已采纳

1回答

火花-大表- HBase客户端没有关闭的火花？

google-cloud-platform、hbase、google-cloud-dataproc、google-cloud-bigtable

我试图在Python循环中执行一条写入BigTable的Pyspark语句，这将导致以下错误(使用Dataproc提交的作业)。任何客户端没有正确关闭(如建议的)，如果是的话，有什么方法可以做到这一点呢？谢谢你的支持！火花脚本from pyspark.sql import SQLContext sc = SparkContext</

浏览 0提问于2021-01-02得票数 3

回答已采纳

1回答

在Dataproc上在Anaconda中导入PySpark错误

pyspark、anaconda、google-cloud-dataproc

我已经用Anaconda作为附加组件构建了一个Dataproc集群。我创建了一个虚拟env。并在里面安装了RDkit。现在我的问题是，当我打开python终端并尝试这样做时：它抛出错误：我可以在Anaconda中安装PySpark，然后它就可以工作了，但是我想在Dataproc上使用

浏览 2提问于2020-01-28得票数 1

1回答

Dataproc集群中的Scala火花作业返回java.util.NoSuchElementException: None.get

scala、apache-spark、google-cloud-dataproc

org.apache.spark.executor.Executor: Exception in task 0.0 in stage 0.0 (TID 0)当我使用DataprocWonderland", 1), ("Gutenberg’s", 1)) val rdd = spark.sparkContext.

浏览 2提问于2021-03-18得票数 2

回答已采纳

1回答

如何在Dataproc* Serverless上运行的Spark中重命名GCS文件？*

apache-spark、hadoop、google-cloud-dataproc、google-cloud-dataproc-serverless

在将星星之火数据文件写入文件后，我试图使用如下代码重命名该文件：valgetPath().getName()这里运作的很好.但是，当我在Dataproc-*** 在作业结束之前，文件似乎不会保存到目标桶中，因此

浏览 8提问于2022-07-19得票数 2

1回答

谷歌云数据流程中的PySpark速度太慢

apache-spark、google-cloud-platform、google-cloud-dataproc

我将一个PySpark ML模型部署到一个Google Cloud Dataproc集群中，它运行了一个多小时，但我的数据大约是800MB。

浏览 3提问于2020-05-31得票数 1

1回答

使用用于数据处理的组件网关显示色调

google-cloud-dataproc

有没有可能用Dataproc的组件网关来暴露色调？我看了一遍文档，没有找到任何添加服务的选项。我正在使用下面的命令创建Dataproc集群。gcloud beta dataproc clusters create hive-cluster \ --image-versioninit-scripts/hue.sh \ --properties hive:hive.metastore.warehouse.dir=gs://$PROJ

浏览 2提问于2020-11-02得票数 2

3回答

在提交作业时，如何使用--文件参数来访问上传的静态文件？

python、apache-spark、pyspark、google-cloud-dataproc

例如，我有一个文件夹： - test.py该作业被划分为以下列方式激发集群：在test.py中，我想访问我上传的静态文件。logging.info(test_file.read())IOError: [Errno 2] No such file or directory: 'test.yml' 如何<e

浏览 1提问于2016-01-22得票数 13

回答已采纳

2回答

为什么spark内容的默认并行度与vCPU的数量不同？

python、apache-spark、google-cloud-platform、pyspark、google-cloud-dataproc

我已经用下面的代码片段在Google Cloud Platform Dataproc中创建了一个集群： --project--master-boot-disk-type pd-ssd --master-boot-disk-size 100 \ --initialization-actions gs://goog-dataproc-initialization-actions我有一个PySpark脚本，其中包含

浏览 3提问于2020-05-26得票数 1

点击加载更多