如何在创建Dataproc集群时运行Bash脚本作为初始化操作？

文章/答案/技术大牛

发布

2回答

集群创建后如何在GCP上运行集群初始化脚本

、、

我已经创建了Google集群，但是需要安装presto，因为我现在有一个要求。Presto作为Dataproc 上的初始化操作提供，如何在创建集群后运行此初始化操作。

浏览 4提问于2017-10-20得票数 0

回答已采纳

1回答

提交有关dataproc的Presto作业

、

我试图在运行Presto的集群上提交一个带有postgresql连接器的dataproc作业。集群被初始化如下： --project=${PROJECT} \gcloud beta dataproc jobs submit presto \ --cluste

浏览 0提问于2019-08-27得票数 3

回答已采纳

1回答

Dataproc在dataproc上安装动物园管理员最新版本，作为群集创建的动物园管理员仲裁模式。

、、、

有谁知道如何在dataproc上安装动物园管理员的最新版本作为动物园管理员仲裁模式。而集群创建。On latest dataproc version 2.0 (Debian 10, Hadoop 3.2, Spark 3.1) 在dataproc 上安装动物园管理员有两种方法，一种是使用初始化操作脚本，另一种方法是选择作为可选组件的动物园管理员，而集群创建。当我使

浏览 6提问于2021-12-10得票数 2

1回答

、、、、

我希望Dataproc集群下载一个我创建的定制库，它不是pip可安装的，所以它需要用户从云源库中克隆它，然后执行sudo python setup.py install。我尝试创建一个bash脚本；创建集群时没有任何问题，但我认为它没有运行bash脚本，因为我没有注意到任何更改。下面是我想要初始化到集群的bash脚本<

浏览 13提问于2020-02-28得票数 3

回答已采纳

1回答

无法在GCP上的dataproc集群中导入pyspark

、、

我只是在Google平台上安装了一个集群来运行一些火花缭乱的作业。最初，我使用ipython.sh (来自github存储库)作为集群的初始化脚本。经过一些搜索之后，我认为这与Python中没有包含的pyspark安装路径有关，所以我删除了我的集群，并希望创建一个新的集群，使用jupyter.sh作为初始化脚本。检查日志“dataproc-初始化

浏览 2提问于2016-09-19得票数 1

2回答

Dataproc初始化脚本错误pip命令未找到使用多个初始化脚本时出错

下面是我用来创建dataproc集群的命令。这里有两个初始化脚本。(1) jupyter.sh (2) my_initialize.sh --subnet default --zoneus-west1-a --project myproject \ --initialization-actions gs://dataproc-initialization-

浏览 2提问于2018-09-12得票数 1

2回答

我需要运行一个同时安装了Dataproc和cluster连接器的BigQuery集群。我使用的一个变体(因为我无法访问一般使用的存储桶)，一切正常工作，但是当我运行一个作业时，当集群启动并运行时，它总是导致一个Task was not acquired错误。我可以通过简单地在每个节点上重新启动dataproc代理来修复这个问题，但是我确实需要这样做才能在集群创建后立即运行作业。& disow

浏览 2提问于2018-09-04得票数 0

回答已采纳

1回答

GCP Dataproc自定义图像Python环境

、、、

我有一个问题，当我创建一个DataProc自定义图像和Pyspark。我的自定义镜像基于DataProc 1.4.1-debian9，并使用我的初始化脚本从一个requirements.txt文件安装python3和一些包，然后设置python3环境变量以强制pyspark但是，当我在使用此镜像创建的集群上提交作业时(为简单起见，使用单节点标志)，该作业找不到已安装的包。如果我登录集群机器并运行pyspark命令，则

浏览 23提问于2019-07-12得票数 7

回答已采纳

1回答

在GCP集群上运行Dask脚本

、

为此，我将使用"dataproc“来创建一个集群。但我的问题是，我不知道如何在集群上运行我的python-dask脚本。据我所知，我应该在dataproc上创建一个初始化脚本，我知道如何设置一个初始化脚本来安装conda或其他软件或库，但是以这种方式编写一个能够在集群上运行dask代码的脚本对我来说有

浏览 10提问于2019-02-09得票数 0

3回答

是否可以使用Google Dataproc上的初始化脚本向集群提交作业？

、

我在1个集群上使用1个作业的Dataproc。我希望在创建群集后立即开始我的作业。我发现实现这一点的最佳方法是使用如下所示的初始化脚本提交作业。gcloud dataproc jobs submit pyspark ...export -f submit_job echo "checkinggcloud dataproc clusters list --region='asia-no

浏览 54提问于2021-09-03得票数 3

回答已采纳

2回答

如何组合和测试google dataproc* --初始化-操作*

例如，我们是否可以：当它失败时，如何在几秒钟内而不是几分钟内调试.即脚本不完整创建步骤？

浏览 0提问于2018-02-21得票数 2

回答已采纳

1回答

暂停Dataproc集群- Google计算引擎

、

是否有一种暂停Dataproc集群的方法，这样当我没有主动运行星际争霸或火花提交作业时，就不会收到账单了吗？此链接上的群集管理说明：只显示如何销毁一个集群，但我已经安装了火花卡桑德拉连接器API，例如。除了创建每次需要安装的映像之外，我唯一的选择是吗？

浏览 6提问于2016-01-01得票数 8

回答已采纳

2回答

如何在Dataproc上安装木星/iPython？

当我创建新集群时，如何自动安装和配置它？

浏览 6提问于2015-10-13得票数 3

回答已采纳

2回答

在dataproc中运行星火作业

、、、

我已经创建并成功地测试了一个项目，该项目使用样本数据在本地运行。运行整个管道作业的Bash文件：gs://dataproc-initialization-actions/docker/docker.sh git克隆我的项目(这也可以在初始化

浏览 0提问于2018-10-19得票数 1

1回答

我没有找到NodeInitializationAction的证据，因为Dataproc已经运行。

、

dataproc.create操作。我可以看到正在创建集群，但是当我将ssh放入主计算机(在us-central1 1-f中的“cat-m”)时，我没有看到我指定的脚本被复制或运行的任何证据。(编辑:我在/etc/google-dataproc/startup-scripts/dataproc-initialization-script-0).中找到了脚本本身从哪里调用<

浏览 2提问于2016-12-22得票数 4

回答已采纳

1回答

从composer在dataproc集群上执行bash脚本

、

我想在使用一个简单的shell脚本创建一个dataproc集群后，将jars添加到该集群的特定位置。一旦创建了dataproc集群，下一步就是执行bash脚本，该脚本将把jar添加到data proc集群中。您能建议使用哪个airflow操作符在dataproc集群上执行bash脚本吗？

浏览 21提问于2019-05-08得票数 2

2回答

Dataproc的基本概念:它是如何操作的？

、

我正在尝试理解dataproc的操作方面。比方说，我在云存储桶中有一堆csv文件，我有一个单独的Python脚本来读取它们，执行一些聚合，并将数据保存到bigquery。如果我创建一个dataproc集群，并让该集群节点同时运行该脚本，那么如何在集群节点之间实现并行化呢？每个节点会尝试读取所有文件并进行聚合，还是每个节点都会自动读取各自的子集？

浏览 2提问于2018-11-24得票数 1

1回答

当我对Dataframe执行操作时发生了错误，这是我手动创建的。

、、、、

我用下面的代码用一个列创建了一个dataframe：其中，temp是字符串的列表。当我试图在skills_df上做任何像skills_df.count()这样的操作时，它会给我一个错误。这种情况发生在数据处理上。但是，不是通过导入csv文件(即csv_df = spark.read.csv('/user/turing/Profiles_final.csv', header=True)

浏览 1提问于2018-04-26得票数 0

回答已采纳

1回答

如何让主机运行？

、、

我在Dataproc上创建了一个集群，它运行得很好。但是，在集群空闲一段时间(~90分钟)后，主节点将自动停止。我创建的每个集群都会发生这种情况。我看到这里有一个类似的问题：gcloud dataproc clusters create $CLUSTER_NAME \

浏览 1提问于2019-04-09得票数 1

回答已采纳

1回答

向Google Dataproc提交PySpark作业时从requirements.txt初始化虚拟环境

、、、

我想在默认情况下运行Python3的Dataproc集群中提交一个PySpark作业。我想用我拥有的虚拟环境来初始化环境。我尝试了两种方法，一种是压缩整个venv，并将其作为归档文件上传，然后提交到集群。但是我的工作是找不到依赖项。e.g --archives gs://**/--pro

浏览 20提问于2020-05-08得票数 4

点击加载更多

集群创建后如何在GCP上运行集群初始化脚本

提交有关dataproc的Presto作业

Dataproc在dataproc上安装动物园管理员最新版本，作为群集创建的动物园管理员仲裁模式。