如何在Dataproc上的提交作业函数中包含jar URI

google-cloud-platform、pyspark、google-cloud-dataproc、jupyterhub

我正在尝试通过jupyter运行一个PySpark作业，我需要创建一个函数来运行该作业。我需要传递一个jar文件，我正在试图弄清楚如何做到这一点。URI添加到函数中。我的函数目前看起来像这样： from google.cloud import dataproc_v1 def submit_pyspark_job(dataproc_cluster_client, project'main_

浏览 16提问于2019-10-07得票数 3

1回答

提交Google Dataproc Hadoop作业时找不到Hadoop流jar？

hadoop-streaming、google-cloud-dataproc

当尝试以编程方式(从使用dataproc库的MapReduce应用程序)提交Hadoop作业时，作业立即失败。当通过UI提交完全相同的作业时，它工作得很好。我在Dataproc集群上尝试了SSHing，以确认该文件是否存在，检查权限，并更改了jar引用。到目前为止，一切都还没有奏效。" } } 当我通过控制台提交作业时，它可以正常工作。查

浏览 22提问于2019-01-02得票数 0

回答已采纳

1回答

如何管理冲突的Guava、Protobuf和DataProc依赖关系

apache-spark、google-cloud-dataproc、google-hadoop、vitess

我正在做一个scala Spark工作，它需要使用java库(youtube/vitess)，它依赖于比目前DataProc 1.1镜像上提供的更新版本的GRPC (1.01)，Guava (19.0)在本地运行项目并使用maven构建时，会加载这些依赖项的正确版本，作业将不会出现问题。将作业提交到DataProc时，首选这些库的DataProc版本，并且作业将引用无法解

浏览 5提问于2016-11-09得票数 5

1回答

我应该把jars放在dataproc集群上，这样它们才能被gcloud dataproc作业使用，提交星星之火？

google-cloud-dataproc

我有一个初始化脚本，它从本地人工存储库下载一个.jar，并将它放到集群上每个节点的/usr/local/bin中。我可以用 --region=us-central1 --jar=file:///usr/local/bin/myjar.jar -- arg1

浏览 3提问于2020-05-28得票数 3

回答已采纳

1回答

在Dataproc中查找集群中的Hadoop streaming jar

python、hadoop、mapreduce、google-cloud-dataproc

所以我想在Dataproc集群上运行一个Python map reduce作业，问题是我找不到需要提交到主类或jar输入中的Hadoop流jar文件。我在Hadoop 2.7上使用Dataproc image，Hadoop 2.8的答案也可以。谢谢

浏览 19提问于2019-11-13得票数 2

回答已采纳

2回答

将JDBC驱动程序JAR添加到Google Dataproc

apache-spark、jdbc、google-cloud-platform、apache-spark-sql、google-cloud-dataproc

df.write.jdbc("jdbc:postgresql://123.123.123.123:5432/myDatabase", "myTable", props)gcloud beta dataproc jobs submit spark ...--jars file:///h

浏览 4提问于2015-10-05得票数 5

回答已采纳

2回答

dataproc抛出FileNotFoundException上的火花流

apache-spark、google-cloud-dataproc

当我试图向google dataproc集群提交火花流作业时，我得到了以下例外： 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Errorjava.io.FileNotFoundException: File file:/tmp/0afbad25-cb65-49f1-87b8-9cf6523512dd/skyfall-assembly-0.0.1.jarjava.io.FileNotFoundException

浏览 13提问于2016-12-13得票数 2

回答已采纳

1回答

gcloud dataproc作业提交星星之火，以root用户的身份提交作业

apache-spark、google-cloud-platform、hadoop-yarn、gcloud

我试图提交一个火花作业使用'gcloud数据提交作业提交火花‘，我已经设置为纱线的spark.master。当作业在dataproc集群上执行时，是否可以使用我在gcloud中通过身份验证的google用户或在命令中设置代理用户来运行它？示例命令：- --cluster g

浏览 0提问于2019-10-14得票数 1

1回答

在Google上最小化Apache作业初始化时间的最佳方法是什么？

hadoop、apache-spark、google-cloud-dataproc

我试图使用REST服务来使用Dataproc客户端触发Spark作业。但是，dataproc集群中的每个作业都需要10-15秒来初始化星火驱动程序并提交应用程序。我想知道是否有一种有效的方法来消除gs桶中的JAR文件触发的Spark作业的初始化时间？我正在考虑的一些解决办法是：汇集JavaSparkContext的

浏览 6提问于2016-03-02得票数 0

回答已采纳

1回答

GKE上的Dataproc在提交作业时不使用图片

apache-spark、google-cloud-platform、google-kubernetes-engine、google-cloud-dataproc

为什么GKE上的Dataproc不支持将Docker镜像用于作业提交，而是将原始代码用于python/R和jar。提供容器镜像不应该是向GKE提交作业的理想方式吗?无论是普通作业还是数据处理作业？这是在计划中还是在进行中？参考：

浏览 6提问于2020-05-11得票数 2

1回答

Google Dataproc* Presto:如何使用Python运行查询*

python、google-cloud-platform、presto、google-cloud-dataproc、trino

通过执行此中的步骤，我已经设置了一个运行Presto的Google Dataproc集群。它工作得很好，我可以通过gcloud命令行工具运行查询，如链接所示。有没有办法通过我的Python应用程序在Dataproc集群上运行查询？我知道有适用于Presto的Python客户端，但我找不到有关如何将其与运行在Dataproc集群上的Presto连接的资源。类似地，

浏览 13提问于2021-03-14得票数 3

1回答

如何使PySpark在集群上工作

apache-spark、google-cloud-platform、google-cloud-storage、google-cloud-dataproc

我有一系列问题(很抱歉，Google文档太糟糕了，而且不方便用户使用)：您可以将ssh放入头计算机并在整个集群中运行星火，还是使用Google的gcloud dataproc jobs submit ...命令？当我在本地运行Spark作业并尝试访问时，我这样做是没有问题的。当我尝试使用Dataproc时，

浏览 3提问于2019-01-18得票数 3

2回答

如何在GCP集群模式下运行spark作业？

apache-spark、google-cloud-platform、google-cloud-dataproc

在GCP中，我们希望在一个data[proc集群]上以集群模式运行一个spark作业。目前，我们使用以下命令：- gcloud dataproc jobs submit spark --cluster xxxx-xxxx-dataproc-cluster01 --region us-west2xxx.xxxx.xxx.xxx.xxx.xxx.xxxx.xxxx --jars gs://xxx-xxxx-poc/cluster-compute/lib/xxx

浏览 14提问于2020-03-16得票数 2

2回答

在使用DataprocSubmitJobOperator提交Dataproc作业时传递重新启动作业参数

google-cloud-platform、airflow、google-cloud-dataproc

我需要运行星火流作业在谷歌Dataproc集群使用气流。我了解到，在发生故障时，可以通过可选设置自动重新启动Dataproc作业，如所示。如果通过GCP控制台提交作业，则工作正常。但是，在通过气流的max-failures-per-hour提交Dataproc作业时，我不知道在哪里包含参数DataprocSubmitJobOperator。spark.dynamicAllocati

浏览 10提问于2022-10-11得票数 1

回答已采纳

1回答

将pyspark作业提交到dataproc群集时出错(找不到作业)

google-cloud-platform、google-cloud-dataproc、google-cloud-python

我有一个基于GCP的python客户端库的脚本，用于配置集群并向它们提交作业。当我运行这个脚本时，它成功地将文件上传到google存储，创建了一个集群，并提交了一个作业。这个错误是在运行我的"wait_for_job()“函数时出现的，如下所示： not found my-project/

浏览 0提问于2017-09-21得票数 0

1回答

星星之火1.6Kafka流对dataproc* py4j错误的影响*

apache-spark、apache-kafka、google-cloud-dataproc

Lang.Thread.run(Thread.java:745)\n‘，) (编辑)实际错误是: java.lang.NoSuchMethodError: java.lang.NoSuchMethodError 这是由于hadoop版本错误造成的因此，spark应该使用正确<

浏览 3提问于2016-02-26得票数 4

回答已采纳

1回答

星星之火-HBase- GCP模板(3/3) -缺少库？

apache-spark、google-cloud-platform、hbase、google-cloud-bigtable

我正在尝试测试GCP上下文中的Spark连接器，并尝试遵循 (它要求本地包 )，并且在Dataproc上提交作业时(在完成之后)得到以下错误。命令 (base) gcloud dataproc jobs submit spark --cluster $SPARK_CLUSTER --class com.example.bigtable.spark.shc.BigtableSource--jars target/scala-2.11/cloud-bigtable-<em

浏览 0提问于2020-12-28得票数 2

回答已采纳

1回答

将PySpark数据作为dataproc作业上载到bigquery

pyspark、google-bigquery、jar、google-cloud-dataproc、spark-bigquery-connector

我试图在Dataproc集群上提交一个PySpark作业。我的工作是将数据上传到bigquery。当我使用集群上的submit作业执行时，我会遇到一个错误，作业失败。但是，当我提供这个罐子时： "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"，在提交作业<em

浏览 7提问于2022-04-06得票数 1

1回答

如何缓存用于DataProc* Spark作业提交的jars*

google-cloud-dataproc

我正在提交一个火花作业到数据处理使用gcloud或谷歌云Dataproc应用程序接口。其中一个参数是'--jars‘(或其Java API等效项)，其中我提供了要提供给executor和驱动程序类路径的jar文件的逗号分隔列表： gs://google-storage-bucket/lib每次我提交作业时，都会将相同的JAR文件从Google storage bucket复制到

浏览 2提问于2018-03-24得票数 1

1回答

Dataproc不解压缩作为Archive传递的文件。

.net、apache-spark、google-cloud-platform、google-cloud-dataproc

我正在尝试用.NET火花作业提交Dataproc。\ -- find././microsoft-spark-2.4.x-0.11.0.jar.crc 最终，G

浏览 0提问于2020-06-29得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

提交Google Dataproc Hadoop作业时找不到Hadoop流jar？

如何管理冲突的Guava、Protobuf和DataProc依赖关系

我应该把jars放在dataproc集群上，这样它们才能被gcloud dataproc作业使用，提交星星之火？

在Dataproc中查找集群中的Hadoop streaming jar

将JDBC驱动程序JAR添加到Google Dataproc

dataproc抛出FileNotFoundException上的火花流

gcloud dataproc作业提交星星之火，以root用户的身份提交作业

在Google上最小化Apache作业初始化时间的最佳方法是什么？

GKE上的Dataproc在提交作业时不使用图片

Google Dataproc* Presto:如何使用Python运行查询*

如何使PySpark在集群上工作

如何在GCP集群模式下运行spark作业？

在使用DataprocSubmitJobOperator提交Dataproc作业时传递重新启动作业参数

将pyspark作业提交到dataproc群集时出错(找不到作业)

星星之火1.6Kafka流对dataproc* py4j错误的影响*

星星之火-HBase- GCP模板(3/3) -缺少库？

将PySpark数据作为dataproc作业上载到bigquery

如何缓存用于DataProc* Spark作业提交的jars*

Dataproc不解压缩作为Archive传递的文件。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐