腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9711)
视频
沙龙
2
回答
集群
创建
后如
何在
GCP上
运行
集群
初始化
脚本
、
、
我已经
创建
了Google
集群
,但是需要安装presto,因为我现在有一个要求。Presto
作为
Dataproc
上的
初始化
操作
提供,如
何在
创建
集群
后
运行
此
初始化
操作
。
浏览 4
提问于2017-10-20
得票数 0
回答已采纳
1
回答
提交有关
dataproc
的Presto作业
、
我试图在
运行
Presto的
集群
上提交一个带有postgresql连接器的
dataproc
作业。
集群
被
初始化
如下: --project=${PROJECT} \gcloud beta
dataproc
jobs submit presto \ --cluste
浏览 0
提问于2019-08-27
得票数 3
回答已采纳
1
回答
Dataproc
在
dataproc
上安装动物园管理员最新版本,
作为
群集
创建
的动物园管理员仲裁模式。
、
、
、
有谁知道如
何在
dataproc
上安装动物园管理员的最新版本
作为
动物园管理员仲裁模式。而
集群
创建
。On latest
dataproc
version 2.0 (Debian 10, Hadoop 3.2, Spark 3.1) 在
dataproc
上安装动物园管理员有两种方法,一种是使用
初始化
操作
脚本
,另一种方法是选择
作为
可选组件的动物园管理员,而
集群
创建
。当我使
浏览 6
提问于2021-12-10
得票数 2
1
回答
如
何在
创建
Dataproc
集群
时
运行
Bash
脚本
作为
初始化
操作
?
、
、
、
、
我希望
Dataproc
集群
下载一个我
创建
的定制库,它不是pip可安装的,所以它需要用户从云源库中克隆它,然后执行sudo python setup.py install。我尝试
创建
一个
bash
脚本
;
创建
集群
时
没有任何问题,但我认为它没有
运行
bash
脚本
,因为我没有注意到任何更改。 下面是我想要
初始化
到
集群
的
bash
脚本<
浏览 13
提问于2020-02-28
得票数 3
回答已采纳
1
回答
无法在GCP上的
dataproc
集群
中导入pyspark
、
、
我只是在Google平台上安装了一个
集群
来
运行
一些火花缭乱的作业。最初,我使用ipython.sh (来自github存储库)
作为
集群
的
初始化
脚本
。经过一些搜索之后,我认为这与Python中没有包含的pyspark安装路径有关,所以我删除了我的
集群
,并希望
创建
一个新的
集群
,使用jupyter.sh
作为
初始化
脚本
。检查日志“
dataproc
-
初始化
浏览 2
提问于2016-09-19
得票数 1
2
回答
Dataproc
初始化
脚本
错误pip命令未找到使用多个
初始化
脚本
时
出错
下面是我用来
创建
dataproc
集群
的命令。这里有两个
初始化
脚本
。(1) jupyter.sh (2) my_initialize.sh --subnet default --zoneus-west1-a --project myproject \ --initialization-actions gs://
dataproc
-initialization-
浏览 2
提问于2018-09-12
得票数 1
2
回答
如何知道何时执行
dataproc
初始化
操作
我需要
运行
一个同时安装了
Dataproc
和cluster连接器的BigQuery
集群
。我使用的一个变体(因为我无法访问一般使用的存储桶),一切正常工作,但是当我
运行
一个作业
时
,当
集群
启动并
运行
时,它总是导致一个Task was not acquired错误。我可以通过简单地在每个节点上重新启动
dataproc
代理来修复这个问题,但是我确实需要这样做才能在
集群
创建
后立即
运行
作业。& disow
浏览 2
提问于2018-09-04
得票数 0
回答已采纳
1
回答
GCP
Dataproc
自定义图像Python环境
、
、
、
我有一个问题,当我
创建
一个
DataProc
自定义图像和Pyspark。我的自定义镜像基于
DataProc
1.4.1-debian9,并使用我的
初始化
脚本
从一个requirements.txt文件安装python3和一些包,然后设置python3环境变量以强制pyspark但是,当我在使用此镜像
创建
的
集群
上提交作业
时
(为简单起见,使用单节点标志),该作业找不到已安装的包。如果我登录
集群
机器并
运行
pyspark命令,则
浏览 23
提问于2019-07-12
得票数 7
回答已采纳
1
回答
在GCP
集群
上
运行
Dask
脚本
、
为此,我将使用"
dataproc
“来
创建
一个
集群
。但我的问题是,我不知道如
何在
集群
上
运行
我的python-dask
脚本
。据我所知,我应该在
dataproc
上
创建
一个
初始化
脚本
,我知道如何设置一个
初始化
脚本
来安装conda或其他软件或库,但是以这种方式编写一个能够在
集群
上
运行
dask代码的
脚本
对我来说有
浏览 10
提问于2019-02-09
得票数 0
3
回答
是否可以使用Google
Dataproc
上的
初始化
脚本
向
集群
提交作业?
、
我在1个
集群
上使用1个作业的
Dataproc
。 我希望在
创建
群集后立即开始我的作业。我发现实现这一点的最佳方法是使用如下所示的
初始化
脚本
提交作业。gcloud
dataproc
jobs submit pyspark ...export -f submit_job echo "checkinggcloud
dataproc
clusters list --region='asia-no
浏览 54
提问于2021-09-03
得票数 3
回答已采纳
2
回答
如何组合和测试google
dataproc
--
初始化
-
操作
例如,我们是否可以:当它失败
时
,如
何在
几秒钟内而不是几分钟内调试.即
脚本
不完整
创建
步骤?
浏览 0
提问于2018-02-21
得票数 2
回答已采纳
1
回答
暂停
Dataproc
集群
- Google计算引擎
、
是否有一种暂停
Dataproc
集群
的方法,这样当我没有主动
运行
星际争霸或火花提交作业
时
,就不会收到账单了吗?此链接上的群集管理说明: 只显示如何销毁一个
集群
,但我已经安装了火花卡桑德拉连接器API,例如。除了
创建
每次需要安装的映像之外,我唯一的选择是吗?
浏览 6
提问于2016-01-01
得票数 8
回答已采纳
2
回答
如
何在
Dataproc
上安装木星/iPython?
当我
创建
新
集群
时
,如何自动安装和配置它?
浏览 6
提问于2015-10-13
得票数 3
回答已采纳
2
回答
在
dataproc
中
运行
星火作业
、
、
、
我已经
创建
并成功地测试了一个项目,该项目使用样本数据在本地
运行
。
运行
整个管道作业的
Bash
文件:gs://
dataproc
-initialization-actions/docker/docker.sh git克隆我的项目(这也可以在
初始化
浏览 0
提问于2018-10-19
得票数 1
1
回答
我没有找到NodeInitializationAction的证据,因为
Dataproc
已经
运行
。
、
dataproc
.create
操作
。我可以看到正在
创建
集群
,但是当我将ssh放入主计算机(在us-central1 1-f中的“cat-m”)
时
,我没有看到我指定的
脚本
被复制或
运行
的任何证据。(编辑:我在/etc/google-
dataproc
/startup-scripts/
dataproc
-initialization-script-0).中找到了
脚本
本身 从哪里调用<
浏览 2
提问于2016-12-22
得票数 4
回答已采纳
1
回答
从composer在
dataproc
集群
上执行
bash
脚本
、
我想在使用一个简单的shell
脚本
创建
一个
dataproc
集群
后,将jars添加到该
集群
的特定位置。一旦
创建
了
dataproc
集群
,下一步就是执行
bash
脚本
,该
脚本
将把jar添加到data proc
集群
中。 您能建议使用哪个airflow
操作
符在
dataproc
集群
上执行
bash
脚本
吗?
浏览 21
提问于2019-05-08
得票数 2
2
回答
Dataproc
的基本概念:它是如何
操作
的?
、
我正在尝试理解
dataproc
的
操作
方面。 比方说,我在云存储桶中有一堆csv文件,我有一个单独的Python
脚本
来读取它们,执行一些聚合,并将数据保存到bigquery。如果我
创建
一个
dataproc
集群
,并让该
集群
节点同时
运行
该
脚本
,那么如
何在
集群
节点之间实现并行化呢?每个节点会尝试读取所有文件并进行聚合,还是每个节点都会自动读取各自的子集?
浏览 2
提问于2018-11-24
得票数 1
1
回答
当我对Dataframe执行
操作
时
发生了错误,这是我手动
创建
的。
、
、
、
、
我用下面的代码用一个列
创建
了一个dataframe:其中,temp是字符串的列表。当我试图在skills_df上做任何像skills_df.count()这样的
操作
时
,它会给我一个错误。这种情况发生在数据处理上。但是,不是通过导入csv文件(即csv_df = spark.read.csv('/user/turing/Profiles_final.csv', header=True)
浏览 1
提问于2018-04-26
得票数 0
回答已采纳
1
回答
如何让主机
运行
?
、
、
我在
Dataproc
上
创建
了一个
集群
,它
运行
得很好。但是,在
集群
空闲一段时间(~90分钟)后,主节点将自动停止。我
创建
的每个
集群
都会发生这种情况。我看到这里有一个类似的问题:gcloud
dataproc
clusters create $CLUSTER_NAME \
浏览 1
提问于2019-04-09
得票数 1
回答已采纳
1
回答
向Google
Dataproc
提交PySpark作业
时
从requirements.txt
初始化
虚拟环境
、
、
、
我想在默认情况下
运行
Python3的
Dataproc
集群
中提交一个PySpark作业。我想用我拥有的虚拟环境来
初始化
环境。我尝试了两种方法,一种是压缩整个venv,并将其
作为
归档文件上传,然后提交到
集群
。但是我的工作是找不到依赖项。e.g --archives gs://**/--pro
浏览 20
提问于2020-05-08
得票数 4
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券