我想知道是否有可能通过查看账单数据来获得用于dataproc实例的计算时数总数。
注:重申一下.我对集群存在的小时数不感兴趣,我想知道计算总时数。
我们将账单数据导出到BigQuery,我运行了以下查询:
select cost_grouping,cast(sum(hours) as int64) as hours
from (
select case when sku_description like 'Licensing Fee for Google Cloud Dataproc%' then sku_description
我需要运行一个同时安装了Dataproc和cluster连接器的BigQuery集群。
我使用的一个变体(因为我无法访问一般使用的存储桶),一切正常工作,但是当我运行一个作业时,当集群启动并运行时,它总是导致一个Task was not acquired错误。
我可以通过简单地在每个节点上重新启动dataproc代理来修复这个问题,但是我确实需要这样做才能在集群创建后立即运行作业。该脚本的这一部分似乎没有正常工作:
# Restarts Dataproc Agent after successful initialization
# WARNING: this function relies
使用图像版本1.3-debian9显示jars是可用的(附图截图)。
使用镜像版本预览(1.4-debian9)给出以下错误消息(附加屏幕截图):
Py4JJavaError: An error occurred while calling o60.load.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
用于创建Dataproc群集的命令:
gcloudataproc clusters create $
摘要:我无法获得星火数据并将其写入BigQuery表。
详细信息:我正在Dataproc中运行一个无服务器的批处理作业,直接从BigQuery / Cloud读取数据,进行一些特性工程并将其保存在Bigquery上。然而,在一个例程中,我无法检索Dataframe,并指责:
22/10/08 08:13:21 WARN BigQueryDataSourceWriterInsertableRelation: It seems that 184 out of 16 partitions have failed, aborting
22/10/08 08:13:21 WARN BigQueryDir