我需要运行一个同时安装了Dataproc和cluster连接器的BigQuery集群。
我使用的一个变体(因为我无法访问一般使用的存储桶),一切正常工作,但是当我运行一个作业时,当集群启动并运行时,它总是导致一个Task was not acquired错误。
我可以通过简单地在每个节点上重新启动dataproc代理来修复这个问题,但是我确实需要这样做才能在集群创建后立即运行作业。该脚本的这一部分似乎没有正常工作:
# Restarts Dataproc Agent after successful initialization
# WARNING: this function relies
我对这份文件感到很困惑
Service account requirements and Limitations:
* Service accounts can only be set when a cluster is created.
* You need to create a service account before creating the Cloud Dataproc cluster that will be associated with the service account.
* Once set, the service account used for a clust
我正在使用Python Client Library for Google Cloud Dataproc运行一个脚本,它可以自动提供集群、提交作业等。但在尝试提交作业时,它返回ImportError: no module named pandas。我导入pandas,以及运行作业的脚本中的其他几个包。我不知道如何绕过这个问题。
那么这有意义吗?
#!/bin/bash
ROLE=$(/usr/share/google/get_metadata_value attributes/dataproc-role)
if [[ "${ROLE}" == '