腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何从DataProcPySparkOperator发出气流日志
、
、
、
到目前为止,我已经将以下内容包含在运行在运算符集群
中
的pyspark脚本的顶部:logging.info('Test bare logger')默认情况下,气流是否
在
集群
中
设置</
浏览 2
提问于2020-12-08
得票数 2
回答已采纳
1
回答
在
Dataproc
作业
中
设置
动态
属性
我想创建一个工作流模板,以便启动群集、运行
作业
和删除群集。
在
作业
中
,我希望传入可以
动态
设置
的
属性
。例如,将
属性
设置
为当前日期。 下面是一个简单的例子。我正确地使用了数据函数,但这是
在
创建时处理的,所以如果我今天
设置
工作流,它看起来总是12/31/2020。我知道我可以删除
作业
并将其添加回每次运行的模板
中
,但我希望有一种更简单的方法。gcloud
浏览 18
提问于2020-12-31
得票数 2
1
回答
如何在气流中将火花
作业
属性
传递给DataProcSparkOperator?
、
、
、
、
我试图使用气流的
在
Dataproc
上执行Spark。jar位于GCS上,我
动态
地创建
Dataproc
集群,然后
在
新创建的
Dataproc
集群上执行此jar。我可以使用默认
设置
的DataProcSparkOperator来执行这一操作,但是我无法配置火花
作业
属性
(例如--master、--deploy-mode、--driver-memory等)。从空气流动的文件
中
没有得到任何帮助。也尝试过很多事情,但都没有成功。我们
浏览 0
提问于2019-01-01
得票数 4
回答已采纳
1
回答
Dataproc
对每个
作业
是否有资源分配限制
假设我有一个包含100个工作节点的
Dataproc
集群,这些节点具有特定的规范。当我向
dataproc
提交
作业
时,每个
作业
是否有使用分配限制 例如,
作业
A运行的节点不能超过所有节点总数的50% 我们有这样的限制吗?或者任何
作业
都可以分配集群的所有资源
浏览 22
提问于2020-06-26
得票数 1
回答已采纳
1
回答
Dataproc
: PySpark登录到GCS桶
、
、
、
、
我
在
Dataproc
中
运行了一个pyspark
作业
。目前,我们正在登录控制台/纱线日志。根据我们的要求,我们需要将日志存储
在
GCS桶
中
。有没有一种方法可以直接登录到GCS
中
带有python日志模块的文件? 我尝试用下面的配置
设置
日志模块。
浏览 4
提问于2022-10-14
得票数 2
回答已采纳
1
回答
如何在集群模式下运行
dataproc
集群?
我们正尝试
在
集群模式下运行
Dataproc
集群,但失败了。我们已经尝试了
属性
--properties spark.submit.deployMode=cluster,但失败了。有没有人能提供更多关于如何
设置
的信息? 提前谢谢。
浏览 18
提问于2020-02-24
得票数 2
2
回答
在
集群模式下运行
作业
时,哪里可以
在
dataproc
中找到火花日志
、
、
我
在
dataproc
中
以
作业
的形式运行以下代码。
在
“群集”模式下运行时,无法
在
控制台中找到日志。total_seconds()如果使用deployMode作为cluster
属性
触发
作业
但是,如果
作业
是
在
默认模式(即client模式)
中
触发的,
浏览 23
提问于2021-12-07
得票数 3
回答已采纳
2
回答
如何在GCP集群模式下运行spark
作业
?
、
、
在
GCP
中
,我们希望
在
一个data[proc集群]上以集群模式运行一个spark
作业
。目前,我们使用以下命令:- gcloud
dataproc
jobs submit spark --cluster xxxx-xxxx-
dataproc
-cluster01 --region us-west2spark.submit.deployMode=cluster --properties=spark.driver.extraClassPath=/xxxx/xxxx/
浏览 14
提问于2020-03-16
得票数 2
1
回答
在
云日志记录
中
查看
Dataproc
作业
驱动程序日志
虽然群集级日志是可用的,但我无法查询
作业
的
Dataproc
作业
级别日志。
Dataproc
:<em
浏览 6
提问于2021-09-20
得票数 2
2
回答
如何在云监控/堆栈驱动
中
按状态显示数据流程
作业
总数?
、
、
、
、
Dataproc
作业
中
应该有succeeded/failed/pending状态,我当然可以
在
云控制台上
Dataproc
下的Jobs部分看到这一点。但是,如何在云监控/堆栈驱动程序
中
可视化所有这些状态?我<
浏览 5
提问于2021-02-02
得票数 2
1
回答
Dataproc
:火花驱动程序和执行器日志位置及相关的信任
我想知道哪些信任会影响火花驱动程序和执行器日志存储
在
Dataproc
上的位置,以及默认行为是什么。
浏览 4
提问于2022-06-08
得票数 0
1
回答
在
中
按顺序运行已提交
作业
、
、
我希望在给定集群上提交
作业
,所有
作业
都应该按顺序运行(如AWS EMR),也就是说,如果第一个
作业
处于运行状态,那么接下来的
作业
将进入待定状态,完成第一个
作业
后,第二个
作业
开始运行。我试着
在
集群上提交
作业
,但它并行运行所有
作业
--没有
作业
进入待定状态。 是否可以
在
Dataproc
集群
中
设置
任何配置,以便所有
作业
都按顺序运行?qu
浏览 0
提问于2018-12-19
得票数 1
回答已采纳
1
回答
如何在
Dataproc
中
增加并发
作业
的最大数量?
我需要在
Dataproc
集群
中
运行数百个并发
作业
,每个
作业
都是非常轻量级的(例如,获取表元数据的Hive查询),不需要占用太多资源。但是似乎有一些未知的因素限制了最大并发
作业
数。
浏览 22
提问于2021-09-09
得票数 0
2
回答
火花
作业
似乎只使用了少量的资源。
、
我有一个GCP
DataProc
集群,我使用它来运行大量的星火
作业
,每次5个。 集群为1+ 16,每节点8核/40 16 mem / 1TB存储。现在,我可能误解了一些事情,或者没有正确地做一些事情,但是我现在有5个
作业
一次运行,而Spark显示只有34/128个vcores
在
使用,而且它们似乎不是均匀分布的(
作业
是同时执行的,但是分布是2/7/
浏览 1
提问于2019-06-25
得票数 2
回答已采纳
1
回答
Dataproc
上的Zookeeper
、
我需要一个关于
在
Dataproc
上
设置
Zookeeper集成的建议。手头的场景是一个项目,它将有3个长期运行的
Dataproc
集群,以及每个
作业
动态
创建的许多临时集群。我知道我可以将Zookeeper组件添加到每个
Dataproc
集群,但是如何创建由多个集群组成的集成呢?
浏览 15
提问于2020-07-29
得票数 0
1
回答
在
Dataproc
中将spark.master更改为纱线
、
、
、
、
我将
作业
提交到
Dataproc
中
的星火集群(使用Hadoop )。我看到,无论我为spark.master和部署模式
设置
了哪些
属性
,当我进入Spark时,
作业
的环境选项卡总是显示spark.master的本地
属性
,而且
作业
的不同阶段总是使用相同的executor id例如: gcloud
dataproc
jobs submit spark --cluster mycluster --regionmyregion --class My
浏览 1
提问于2019-10-12
得票数 2
3
回答
在
Dataproc
集群节点上
设置
环境变量
我希望
在
我的
dataproc
集群的每个节点上
设置
一个环境变量,以便它可以用于将运行在该集群上的pyspark
作业
。做这件事最好的方法是什么?除此之外,除了
在
dataproc
初始化脚本中发出export命令之外,我想不出有什么方法可以做到这一点。 有人能提出其他选择吗?
浏览 1
提问于2020-04-14
得票数 4
回答已采纳
2
回答
可以
在
群集模式下运行
dataproc
作业
吗?
我注意到当我使用gcloud
dataproc
jobs submit pyspark时,
作业
是与spark.submit.deployMode=client一起提交的。
浏览 0
提问于2018-04-05
得票数 3
回答已采纳
2
回答
随着
Dataproc
img版本2.0.39-ubuntu18 18的增加,GCP云日志记录成本增加
、
、
我有一个带有映像版本- 2.0.39-ubuntu18 18的
Dataproc
集群,它似乎将所有日志都放入了云日志记录
中
,这大大增加了我们的成本。=gs://
dataproc
-spark-logs/joblogs --enable-component-gateway \ --bucket:
dataproc</em
浏览 16
提问于2022-05-30
得票数 1
回答已采纳
1
回答
DataProc
Spark Error com.google.api.client.googleapis.json.GoogleJsonResponseException: 410消失
、
、
、
在
纱线上运行spark
作业
后,
作业
在
大约9小时后失败,并显示at org.apache.spark.sql.execution.datasources.DynamicPartitionWriterContainer.writeRowsorg.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:135
浏览 1
提问于2017-06-13
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券