腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6795)
视频
沙龙
1
回答
如
何在
Dataproc
上
的
提交
作业
函数
中
包含
jar
URI
google-cloud-platform
、
pyspark
、
google-cloud-dataproc
、
jupyterhub
我正在尝试通过jupyter运行一个PySpark
作业
,我需要创建一个
函数
来运行该
作业
。我需要传递一个
jar
文件,我正在试图弄清楚如何做到这一点。
URI
添加到
函数
中
。我
的
函数
目前看起来像这样: from google.cloud import
dataproc
_v1 def submit_pyspark_job(
dataproc
_cluster_client, project'main_
浏览 16
提问于2019-10-07
得票数 3
1
回答
提交
Google
Dataproc
Hadoop
作业
时找不到Hadoop流
jar
?
hadoop-streaming
、
google-cloud-dataproc
当尝试以编程方式(从使用
dataproc
库
的
MapReduce应用程序)
提交
Hadoop
作业
时,
作业
立即失败。当通过UI
提交
完全相同
的
作业
时,它工作得很好。我在
Dataproc
集群
上
尝试了SSHing,以确认该文件是否存在,检查权限,并更改了
jar
引用。到目前为止,一切都还没有奏效。" } } 当我通过控制台
提交
作业
时,它可以正常工作。查
浏览 22
提问于2019-01-02
得票数 0
回答已采纳
1
回答
如何管理冲突
的
Guava、Protobuf和
DataProc
依赖关系
apache-spark
、
google-cloud-dataproc
、
google-hadoop
、
vitess
我正在做一个scala Spark工作,它需要使用java库(youtube/vitess),它依赖于比目前
DataProc
1.1镜像
上
提供
的
更新版本
的
GRPC (1.01),Guava (19.0)在本地运行项目并使用maven构建时,会加载这些依赖项
的
正确版本,
作业
将不会出现问题。将
作业
提交
到
DataProc
时,首选这些库
的
DataProc
版本,并且
作业
将引用无法解
浏览 5
提问于2016-11-09
得票数 5
1
回答
我应该把jars放在
dataproc
集群
上
,这样它们才能被gcloud
dataproc
作业
使用,
提交
星星之火?
google-cloud-dataproc
我有一个初始化脚本,它从本地人工存储库下载一个.
jar
,并将它放到集群
上
每个节点
的
/usr/local/bin
中
。我可以用 --region=us-central1 --
jar
=file:///usr/local/bin/myjar.
jar
-- arg1
浏览 3
提问于2020-05-28
得票数 3
回答已采纳
1
回答
在
Dataproc
中
查找集群
中
的
Hadoop streaming
jar
python
、
hadoop
、
mapreduce
、
google-cloud-dataproc
所以我想在
Dataproc
集群
上
运行一个Python map reduce
作业
,问题是我找不到需要
提交
到主类或
jar
输入
中
的
Hadoop流
jar
文件。我在Hadoop 2.7
上
使用
Dataproc
image,Hadoop 2.8
的
答案也可以。 谢谢
浏览 19
提问于2019-11-13
得票数 2
回答已采纳
2
回答
将JDBC驱动程序
JAR
添加到Google
Dataproc
apache-spark
、
jdbc
、
google-cloud-platform
、
apache-spark-sql
、
google-cloud-dataproc
df.write.jdbc("jdbc:postgresql://123.123.123.123:5432/myDatabase", "myTable", props)gcloud beta
dataproc
jobs submit spark ...--jars file:///h
浏览 4
提问于2015-10-05
得票数 5
回答已采纳
2
回答
dataproc
抛出FileNotFoundException
上
的
火花流
apache-spark
、
google-cloud-dataproc
当我试图向google
dataproc
集群
提交
火花流
作业
时,我得到了以下例外: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Errorjava.io.FileNotFoundException: File file:/tmp/0afbad25-cb65-49f1-87b8-9cf6523512dd/skyfall-assembly-0.0.1.
jar
java.io.FileNotFoundException
浏览 13
提问于2016-12-13
得票数 2
回答已采纳
1
回答
gcloud
dataproc
作业
提交
星星之火,以root用户
的
身份
提交
作业
apache-spark
、
google-cloud-platform
、
hadoop-yarn
、
gcloud
我试图
提交
一个火花
作业
使用'gcloud数据
提交
作业
提交
火花‘,我已经设置为纱线
的
spark.master。当
作业
在
dataproc
集群
上
执行时,是否可以使用我在gcloud
中
通过身份验证
的
google用户或在命令
中
设置代理用户来运行它?示例命令:- --cluster g
浏览 0
提问于2019-10-14
得票数 1
1
回答
在Google
上
最小化Apache
作业
初始化时间
的
最佳方法是什么?
hadoop
、
apache-spark
、
google-cloud-dataproc
我试图使用REST服务来使用
Dataproc
客户端触发Spark
作业
。但是,
dataproc
集群
中
的
每个
作业
都需要10-15秒来初始化星火驱动程序并
提交
应用程序。我想知道是否有一种有效
的
方法来消除gs桶
中
的
JAR
文件触发
的
Spark
作业
的
初始化时间?我正在考虑
的
一些解决办法是: 汇集JavaSparkContext
的
浏览 6
提问于2016-03-02
得票数 0
回答已采纳
1
回答
GKE
上
的
Dataproc
在
提交
作业
时不使用图片
apache-spark
、
google-cloud-platform
、
google-kubernetes-engine
、
google-cloud-dataproc
为什么GKE
上
的
Dataproc
不支持将Docker镜像用于
作业
提交
,而是将原始代码用于python/R和
jar
。提供容器镜像不应该是向GKE
提交
作业
的
理想方式吗?无论是普通
作业
还是数据处理
作业
?这是在计划
中
还是在进行
中
? 参考:
浏览 6
提问于2020-05-11
得票数 2
1
回答
Google
Dataproc
Presto:如何使用Python运行查询
python
、
google-cloud-platform
、
presto
、
google-cloud-dataproc
、
trino
通过执行此
中
的
步骤,我已经设置了一个运行Presto
的
Google
Dataproc
集群。 它工作得很好,我可以通过gcloud命令行工具运行查询,
如
链接所示。有没有办法通过我
的
Python应用程序在
Dataproc
集群
上
运行查询?我知道有适用于Presto
的
Python客户端,但我找不到有关如何将其与运行在
Dataproc
集群
上
的
Presto连接
的
资源。类似地,
浏览 13
提问于2021-03-14
得票数 3
1
回答
如何使PySpark在集群上工作
apache-spark
、
google-cloud-platform
、
google-cloud-storage
、
google-cloud-dataproc
我有一系列问题(很抱歉,Google文档太糟糕了,而且不方便用户使用): 您可以将ssh放入头计算机并在整个集群
中
运行星火,还是使用Google
的
gcloud
dataproc
jobs submit ...命令?当我在本地运行Spark
作业
并尝试访问时,我这样做是没有问题
的
。当我尝试使用
Dataproc
时,
浏览 3
提问于2019-01-18
得票数 3
2
回答
如
何在
GCP集群模式下运行spark
作业
?
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
在GCP
中
,我们希望在一个data[proc集群]
上
以集群模式运行一个spark
作业
。目前,我们使用以下命令:- gcloud
dataproc
jobs submit spark --cluster xxxx-xxxx-
dataproc
-cluster01 --region us-west2xxx.xxxx.xxx.xxx.xxx.xxx.xxxx.xxxx --jars gs://xxx-xxxx-poc/cluster-compute/lib/xxx
浏览 14
提问于2020-03-16
得票数 2
2
回答
在使用DataprocSubmitJobOperator
提交
Dataproc
作业
时传递重新启动
作业
参数
google-cloud-platform
、
airflow
、
google-cloud-dataproc
我需要运行星火流
作业
在谷歌
Dataproc
集群使用气流。我了解到,在发生故障时,可以通过可选设置自动重新启动
Dataproc
作业
,
如
所示。如果通过GCP控制台
提交
作业
,则工作正常。但是,在通过气流
的
max-failures-per-hour
提交
Dataproc
作业
时,我不知道在哪里
包含
参数DataprocSubmitJobOperator。spark.dynamicAllocati
浏览 10
提问于2022-10-11
得票数 1
回答已采纳
1
回答
将pyspark
作业
提交
到
dataproc
群集时出错(找不到
作业
)
google-cloud-platform
、
google-cloud-dataproc
、
google-cloud-python
我有一个基于GCP
的
python客户端库
的
脚本,用于配置集群并向它们
提交
作业
。当我运行这个脚本时,它成功地将文件上传到google存储,创建了一个集群,并
提交
了一个
作业
。这个错误是在运行我
的
"wait_for_job()“
函数
时出现
的
,如下所示: not found my-project/
浏览 0
提问于2017-09-21
得票数 0
1
回答
星星之火1.6Kafka流对
dataproc
py4j错误
的
影响
apache-spark
、
apache-kafka
、
google-cloud-dataproc
Lang.Thread.run(Thread.java:745)\n‘,) (编辑)实际错误是: java.lang.NoSuchMethodError: java.lang.NoSuchMethodError 这是由于hadoop版本错误造成
的
因此,spark应该使用正确<
浏览 3
提问于2016-02-26
得票数 4
回答已采纳
1
回答
星星之火-HBase- GCP模板(3/3) -缺少库?
apache-spark
、
google-cloud-platform
、
hbase
、
google-cloud-bigtable
我正在尝试测试GCP上下文中
的
Spark连接器,并尝试遵循 (它要求本地包 ),并且在
Dataproc
上
提交
作业
时(在完成之后)得到以下错误。命令 (base) gcloud
dataproc
jobs submit spark --cluster $SPARK_CLUSTER --class com.example.bigtable.spark.shc.BigtableSource--jars target/scala-2.11/cloud-bigtable-<em
浏览 0
提问于2020-12-28
得票数 2
回答已采纳
1
回答
将PySpark数据作为
dataproc
作业
上载到bigquery
pyspark
、
google-bigquery
、
jar
、
google-cloud-dataproc
、
spark-bigquery-connector
我试图在
Dataproc
集群
上
提交
一个PySpark
作业
。我
的
工作是将数据上传到bigquery。当我使用集群
上
的
submit
作业
执行时,我会遇到一个错误,
作业
失败。但是,当我提供这个罐子时: "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.
jar
",在
提交
作业
<em
浏览 7
提问于2022-04-06
得票数 1
1
回答
如何缓存用于
DataProc
Spark
作业
提交
的
jars
google-cloud-dataproc
我正在
提交
一个火花
作业
到数据处理使用gcloud或谷歌云
Dataproc
应用程序接口。其中一个参数是'--jars‘(或其Java API等效项),其中我提供了要提供给executor和驱动程序类路径
的
jar
文件
的
逗号分隔列表: gs://google-storage-bucket/lib每次我
提交
作业
时,都会将相同
的
JAR
文件从Google storage bucket复制到
浏览 2
提问于2018-03-24
得票数 1
1
回答
Dataproc
不解压缩作为Archive传递
的
文件。
.net
、
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
我正在尝试用.NET火花
作业
提交
Dataproc
。\ -- find././microsoft-spark-2.4.x-0.11.0.
jar
.crc 最终,G
浏览 0
提问于2020-06-29
得票数 7
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop 介绍
Flink 中的应用部署:当前状态与新应用模式
php学习之php的预定义常量的使用
Sqoop使用流程
蚂蚁实时计算团队的AntFlink提交攻坚之路
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券