如何在Google Dataproc上安排Spark作业？

在Google Dataproc上安排Spark作业可以通过以下步骤实现：

创建一个Dataproc集群：在Google Cloud控制台上，选择Dataproc服务，然后创建一个新的集群。可以指定集群的名称、区域、机器类型、节点数量等参数。
上传Spark作业代码和数据：将Spark作业的代码和所需的数据上传到Google Cloud Storage（GCS）中，以便在集群上运行。
提交Spark作业：在Dataproc集群的主节点上打开终端，使用以下命令提交Spark作业：
提交Spark作业：在Dataproc集群的主节点上打开终端，使用以下命令提交Spark作业：
其中，<cluster-name>是集群的名称，<main-class>是Spark作业的主类，<jar-files>是所需的JAR文件，<spark-arguments>是Spark作业的参数。
监控作业运行：可以使用以下命令来监控作业的运行状态：
监控作业运行：可以使用以下命令来监控作业的运行状态：
其中，<job-id>是作业的ID。
查看作业输出：作业运行完成后，可以使用以下命令来查看作业的输出：
查看作业输出：作业运行完成后，可以使用以下命令来查看作业的输出：
这将返回作业的详细信息，包括输出日志和错误信息。

Google Dataproc是Google Cloud提供的托管式Spark和Hadoop服务，它可以帮助用户轻松地在云中运行大规模的数据处理作业。它的优势包括：

弹性伸缩：Dataproc可以根据作业的需求自动调整集群的大小，以提供更好的性能和资源利用率。
简化管理：Dataproc提供了一个易于使用的控制台和命令行工具，可以方便地管理集群、提交作业和监控作业的运行状态。
高可靠性：Dataproc在底层使用Google Cloud的基础设施，具有高可靠性和容错性，可以保证作业的稳定运行。
与其他Google Cloud服务的集成：Dataproc可以与其他Google Cloud服务（如BigQuery、Cloud Storage、Pub/Sub等）无缝集成，方便数据的导入、导出和分析。

推荐的腾讯云相关产品是腾讯云EMR（Elastic MapReduce），它是腾讯云提供的大数据处理服务，类似于Google Dataproc。您可以在腾讯云EMR的官方文档中了解更多信息：腾讯云EMR产品介绍。

如何在Google Dataproc上安排Spark作业？

google-cloud-platform、google-cloud-dataproc

我想使用Dataproc在Google Cloud上创建一个摄取/聚合流程，在此之前，我每天/小时都希望在收集的数据上运行Spark作业。有没有办法安排Spark作业？

浏览 23提问于2020-08-24得票数 2

回答已采纳

1回答

将类型安全配置配置文件传递到DataProcSparkOperator

apache-spark、airflow、google-cloud-dataproc、typesafe-config、google-cloud-composer

我正在使用Google dataproc提交spark作业，并使用google cloud composer来安排它们。不幸的是，我正面临着困难。我依靠.conf文件(类型安全配置文件)将参数传递给我的spark作业。', dataproc_spark_jars='gs://snapshots/jars/pubsub-assembly-0.1.14-S

浏览 0提问于2018-09-15得票数 3

1回答

如何使PySpark在集群上工作

apache-spark、google-cloud-platform、google-cloud-storage、google-cloud-dataproc

我有一系列问题(很抱歉，Google文档太糟糕了，而且不方便用户使用)：您可以将ssh放入头计算机并在整个集群中运行星火，还是使用Google的gcloud dataproc jobs submit ...命令？当我在本地运行Spark作业并尝试访问时，我这样做是没有问题的。当我尝试使用Dataproc时，

浏览 3提问于2019-01-18得票数 3

2回答

运行时请求不充分的身份验证作用域

apache-spark、google-cloud-platform、google-cloud-dataproc

我试图在google dataproc集群上运行星星之火作业，如--jarhadoop-mapreduce-examples.jar \--arg1 \但是“工作”抛出错误 (gcloud.dataproc.jobs

浏览 6提问于2017-04-12得票数 9

回答已采纳

1回答

pyspark ml模型的顶点ai自定义模型训练

apache-spark、pyspark、apache-spark-mllib、machine-learning-model、google-cloud-vertex-ai

是否可以使用VertexAI自定义容器模型构建来训练spark/pyspark ML库模型？我在vertex ai文档中找不到任何关于spark模型训练的参考。

浏览 30提问于2021-09-03得票数 0

2回答

多个google-数据流和dataproc作业

google-cloud-dataflow、google-cloud-dataproc

我有多个谷歌数据流作业，用于数据收集和ETL目的。然后google dataproc作业(Spark)用于进一步的机器学习。我想把这些工作像工作流一样绑在一起，然后我就可以安排整个工作流程了。

浏览 0提问于2016-05-26得票数 2

1回答

gcloud dataproc作业提交星星之火，以root用户的身份提交作业

apache-spark、google-cloud-platform、hadoop-yarn、gcloud

我试图提交一个火花作业使用'gcloud数据提交作业提交火花‘，我已经设置为纱线的spark.master。当作业在dataproc集群上执行时，是否可以使用我在gcloud中通过身份验证的google用户或在命令中设置代理用户来运行它？示例命令：- --cluster gov-demo --region europe-west4 \

浏览 0提问于2019-10-14得票数 1

1回答

在Google上最小化Apache作业初始化时间的最佳方法是什么？

hadoop、apache-spark、google-cloud-dataproc

我试图使用REST服务来使用Dataproc客户端触发Spark作业。但是，dataproc集群中的每个作业都需要10-15秒来初始化星火驱动程序并提交应用程序。我想知道是否有一种有效的方法来消除gs桶中的JAR文件触发的Spark作业的初始化时间？我正在考虑的一些解决办法是：有

浏览 6提问于2016-03-02得票数 0

回答已采纳

1回答

为什么dataproc不承认论点: spark.submit.deployMode=cluster？

google-cloud-dataproc

我以这种方式向dataproc提交了一个火花作业： gcloud dataproc作业提交星星之火--集群=$集群--region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.19.1，spark.submit.deployMode=cluster错误：(gcloud.<e

浏览 2提问于2021-04-29得票数 4

回答已采纳

1回答

气流DataprocSubmitJobOperator - ValueError:协议消息作业没有"python_file_uris“字段

apache-spark、google-cloud-platform、pyspark、google-cloud-dataproc、airflow-2.x

我正在使用气流中的DataprocSubmitJobOperator来安排火花放电作业，而且当我无法将pyfiles传递给火花放电作业时达格 # working - passing-4.0.5.jar','gs://dataproc-spark-jars/mongo-spark-connector_2.12-3.0.2.jar','gs://dataproc

浏览 10提问于2022-07-17得票数 1

回答已采纳

1回答

Datalab BigQuery数据到Dataproc Hadoop字数

apache-spark、hadoop、google-bigquery、google-cloud-dataproc、google-cloud-datalab

我目前在Google BigQuery上有一些reddit数据，我想对选择的subreddits上的所有评论做一个单词计数。查询大约是90GiB，因此不可能直接加载到DataLab中并转换为数据帧。有人建议我使用DataProc中的Hadoop或Spark作业来创建字数统计，并设置一个连接器将BigQuery数据导入到DataProc中，以便DataProc可以进行字数统计。我如何在DataLab中运行它？

浏览 33提问于2021-10-25得票数 1

1回答

Google data proc记录了有关资源不足但没有失败的错误

apache-spark、google-cloud-platform、google-cloud-dataproc

我在google dataproc上运行apache spark java作业。该作业创建spark上下文，分析日志，最后关闭spark上下文。然后为另一组分析创建另一个spark上下文。根据对SO的回答，当启动作业时没有足够的可用资源时，就会发生这种情况。但这通常发生在工作中途。我希望dataproc作业出错并退出。但是，作业只会记录此错误。我如何才能使<em

浏览 21提问于2021-04-09得票数 4

1回答

Google Dataproc -经常断开与执行者的连接

apache-spark、google-cloud-dataproc

我正在使用Dataproc在使用spark-shell的集群上运行Spark命令。我经常收到错误/警告消息，表明我失去了与执行器的连接。: Lost executor 5 on spark-cluster-femibyte-w-0.c.gcebook-1039.internal: remote Rpc client disassociatedReason: [Disassociated] 16/01/20 10:10:24 WARN org.apache.spark

浏览 0提问于2016-01-20得票数 1

3回答

在Dataproc集群节点上设置环境变量

google-cloud-dataproc

我希望在我的dataproc集群的每个节点上设置一个环境变量，以便它可以用于将运行在该集群上的pyspark作业。做这件事最好的方法是什么？我想知道是否有一种使用Compute Engine元数据的方法(虽然到目前为止我的研究表明Compute Engine元数据可以通过Compute Engine实例上的元数据服务器获得，而不是通过环境变量除此之外，除了在dataproc初始化脚本中发出export命令之外，我想不出有什么方法可以做到这一点。有人能提出其他选择吗？

浏览 1提问于2020-04-14得票数 4

回答已采纳

1回答

Spark HBase到Google Dataproc和Bigtable的迁移

google-cloud-platform、google-cloud-dataproc、bigtable、google-cloud-bigtable

我在AWS EMR集群上运行了HBase Spark作业。最近我们搬到了GCP。我把所有的HBase数据都传输给了BigTable。现在，我在Dataproc中运行相同的Spark - Java/Scala作业。Spark作业失败，因为它正在查看spark.hbase.zookeeper.quorum设置。请让我知道，如何在不更改代码的情况下，让我的spark作业在Big

浏览 2提问于2018-05-27得票数 0

1回答

线程"main“org.apache.spark.sql.AnalysisException异常:路径不存在

apache-spark、apache-spark-sql、google-cloud-storage、dataproc

我在Google dataproc集群版本1.4和spark版本2.4.5中运行spark作业，它从GS存储桶中读取路径中具有正则表达式的文件，并获取以下错误。Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path) at org.apache.spark.sql.exe

浏览 219提问于2020-08-07得票数 1

1回答

Google Cloud Dataproc的Talend连接器

google-cloud-platform、talend、google-cloud-dataproc

可以将Talend连接到Google Cloud Dataproc吗？有没有可用的连接器？在上，它说有，但找不到任何与它相关的文档。如果上述情况属实，我也想知道是否可以使用Talend在Dataproc中的Spark/Hadoop上运行作业。谢谢。

浏览 1提问于2017-05-16得票数 0

1回答

无法从Dataproc* sparkjob访问GCP access Secret Manager*

google-cloud-platform、google-cloud-dataproc、google-secret-manager

我正在尝试从dataproc spark作业中获取GCP密钥管理器密码。但是我得到了错误"Exception in thread "main“java.lang.NoClassDefFoundError: com/google/cloud/secretmanager/v1/AccessSecretVersionResponse".我已经在dataproc spark作业依赖项中添加了jar

浏览 14提问于2021-03-18得票数 2

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

scala、apache-spark、google-cloud-dataproc

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交，但有时我需要更容易

浏览 2提问于2020-03-08得票数 5

回答已采纳

1回答

如何在PySpark应用程序中读写Google* Cloud Bigtable中的数据？*

apache-spark、pyspark、google-cloud-dataproc、google-cloud-bigtable

我在Google Cloud Dataproc集群上使用Spark，我想在PySpark作业中访问Bigtable。我们有没有像谷歌BigQuery连接器那样的Spark的Bigtable连接器？

浏览 4提问于2016-11-02得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Google Dataproc上安排Spark作业？

相关·内容

如何在Google Dataproc上安排Spark作业？

将类型安全配置配置文件传递到DataProcSparkOperator

如何使PySpark在集群上工作

运行时请求不充分的身份验证作用域

pyspark ml模型的顶点ai自定义模型训练

多个google-数据流和dataproc作业

gcloud dataproc作业提交星星之火，以root用户的身份提交作业

在Google上最小化Apache作业初始化时间的最佳方法是什么？

为什么dataproc不承认论点: spark.submit.deployMode=cluster？

气流DataprocSubmitJobOperator - ValueError:协议消息作业没有"python_file_uris“字段

Datalab BigQuery数据到Dataproc Hadoop字数

Google data proc记录了有关资源不足但没有失败的错误

Google Dataproc -经常断开与执行者的连接

在Dataproc集群节点上设置环境变量

Spark HBase到Google Dataproc和Bigtable的迁移

线程"main“org.apache.spark.sql.AnalysisException异常:路径不存在

Google Cloud Dataproc的Talend连接器

无法从Dataproc* sparkjob访问GCP access Secret Manager*

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

如何在PySpark应用程序中读写Google* Cloud Bigtable中的数据？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐