Google Dataproc仪表板上未列出Druid Mapreduce作业

文章/答案/技术大牛

发布

1回答

我有一个本地Apache Druid，我设法让Druid在Dataproc集群上执行Hadoop摄取作业(Mapreduce)。作业运行正常，但在Dataproc仪表板上看不到问题。注意: Dataproc集群和Druid之间的唯一连接是主节点和Druid集群之间的VPN连接。

浏览 11提问于2020-09-29得票数 1

回答已采纳

2回答

运行时请求不充分的身份验证作用域

、、

我试图在google dataproc集群上运行星星之火作业，如--jarfile:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \ --class org.apache.hadoop.examples.

浏览 6提问于2017-04-12得票数 9

回答已采纳

3回答

是否可以使用Google Dataproc上的初始化脚本向集群提交作业？

、

我在1个集群上使用1个作业的Dataproc。我希望在创建群集后立即开始我的作业。我发现实现这一点的最佳方法是使用如下所示的初始化脚本提交作业。gcloud dataproc jobs submit pyspark ...export -f submit_job echo "checkinggcloud dataproc clusters list --region='asia-no

浏览 54提问于2021-09-03得票数 3

回答已采纳

1回答

如何在Dataproc Serverless上运行的Spark中重命名GCS文件？

、、、

getPath().getName()这里运作的很好.但是，当我在Dataproc上运行jar时，会得到一个错误，如下所示： Exception in thread "main" java.lang.IllegalArgumentException: Wrong bucket: prj-***, in path: gs:/&#

浏览 8提问于2022-07-19得票数 2

1回答

使用HBaseStorage在Dataproc上通过Pig从Bigtable加载

、、、、

AS (key:chararray, data); 设置群集所遵循的步骤：为hbase-site.xml和BigtableConnectio

浏览 6提问于2017-03-21得票数 2

回答已采纳

1回答

Google Dataproc -经常断开与执行者的连接

、

我正在使用Dataproc在使用spark-shell的集群上运行Spark命令。我经常收到错误/警告消息，表明我失去了与执行器的连接。

浏览 0提问于2016-01-20得票数 1

1回答

提交Google Dataproc Hadoop作业时找不到Hadoop流jar？

、

当尝试以编程方式(从使用dataproc库的MapReduce应用程序)提交Hadoop作业时，作业立即失败。当通过UI提交完全相同的作业时，它工作得很好。我在Dataproc集群上尝试了SSHing，以确认该文件是否存在，检查权限，并更改了jar引用。到目前为止，一切都还没有奏效。2.8.4.jarat java.lang.Class.forName(Class.java:264)

浏览 22提问于2019-01-02得票数 0

回答已采纳

1回答

Dataproc客户端: googleapiclient :获取所有作业列表的方法(runnng，stopped ..等)在集群中

、、

我们正在使用Google Cloud Dataproc来运行sparkJobs。我们需要获取与集群相对应的所有作业及其状态的列表。如果我知道job_id，我可以获得作业的状态，如下所示 projectIdregion=region, jobId="ab4f5d05-e890-4ff5-96ef-017df2b5c0bc").ex

浏览 0提问于2016-07-11得票数 0

1回答

Apache束流管道的缺失度量(通过SparkRunner / Dataproc)

、、、、

目前，我正在通过Stackdriver向运行在Google上的现有管道中添加一些指标，并试图确定如何访问这些指标，并最终将其公开给Stackdriver(在Grafana仪表板下游使用)。我已经尝试过浏览日志和任何可能的地方，但是我没有看到这些自定义度量的任何迹象(或者实际上是从Spark和/或Stackdriver发出的任何度量标准)。作业配置gcloud datapro

浏览 5提问于2021-01-14得票数 2

回答已采纳

1回答

如何在Google中优化Hadoop MapReduce压缩火花输出？

、、

我试过两种方法：一些作业细节:大约8亿行。大约9000火花分区文件输出由星火作业。星火作业大约需要一个小时才能在一个主服务器、4

浏览 1提问于2018-12-27得票数 0

4回答

使用Airflow _DataProcJob挂钩禁用dataproc中的附加作业

、、

我使用通过airflow在GCP dataproc中运行作业。在每个作业执行之前，使用检查该作业是否可以附加到以前执行的作业的钩子。附加作业时，除非我删除前一个(附加的)作业，否则dataprock不会执行该作业有什么方法可以禁用附件吗？of states that we will accept as sufficient # for attaching the new task insta

浏览 1提问于2020-06-03得票数 3

1回答

DataProc上的执行器心跳超时

、、

我正在尝试在一个Google DataProc集群上安装Spark (2.0.0)的ml模型。当拟合模型时，我会收到执行者心跳超时错误。我怎么解决这个问题？我的背景：设置：=-Xmx4915mdataproc</e

浏览 3提问于2016-09-03得票数 0

1回答

Dataproc上的增量Sqoop提供了"util.AppendUtils:无法将文件追加到目标dir；没有这样的目录“

、、

我可以通过hadoop/google上的sqoop作业运行postgresql表的完整导出，以导出到google存储桶。但是，当我尝试增量导出时，它失败了。gcloud dataproc jobs submit hadoop \ --class=org.apache.sqoop.Sqoop \--properties=mapreduce.job.classloader=true \ --ja

浏览 1提问于2020-03-13得票数 3

1回答

hadoop临时表中的Dataproc冲突

、、

我有一个流，它为不同的区域并行执行Dataproc集群上的火花作业。对于每个区域，它创建一个集群，执行星火作业，并在集群完成后删除它。作业将数据保存在多个表中，每个作业调用saveAsNewAPIHadoopDataset方法不止一次。上面异常上的时间戳201802250620_0013具有_0013 sufix，我不确定它是否代表时间。我的想法是，有时作业同时运行，并试图创建一个名称中具有相同时间戳的数据集。或者在并行作业中，或者

浏览 0提问于2018-03-13得票数 0

回答已采纳

4回答

Google Dataflow对Apache Spark

、、、

我正在调查、Google、Dataflow、和Apache ，以决定哪种解决方案更适合我们的大数据分析业务需求。

浏览 2提问于2015-11-04得票数 32

回答已采纳

1回答

从Pyspark加载进程从GCS加载，转换并保存到不同的GCS不工作

、、

': '-Xmx2304m', 'distcp:mapreduce.map.memory.mb': '3024', 'spark:s

浏览 78提问于2021-11-03得票数 3

2回答

在dataproc上用PEX环境封装PySpark

、、、、

我正试图在google上使用PEX打包一个pyspark作业，但是我得到了一个Permission Denied错误。from google.cloud import dataproc_v1 as dataproc job_client = dataproc<

浏览 18提问于2022-01-19得票数 2

回答已采纳

2回答

文件系统提供商在星火中消失？

、

我使用maven来依赖，它通过"gs://“URL为Google提供了一个FileSystem。我的星火项目使用maven-阴影插件来创建一个包含所有源的大jar。大jar正确地包含了一个META-INF/services/java.nio.file.spi.FileSystemProvider文件，其中包含了类的正确名称(com.google.cloud.storage.contrib.nio.CloudStorageFileSystemProvider该程序使用FileSystemProvider.ins

浏览 2提问于2016-09-14得票数 2

2回答

如何提高Google* App Engine的隐藏"file.Open“配额*

、、、、

在GAE上运行MapReduce作业时，我达到了下面列出的配额限制。限制是每天接收100 is的“文件字节”，据我所知这是从Blobstore接收的文件字节。/mapreduce_pipeline.py", line 109, in __iter__ File "/base/data/home&#x

浏览 3提问于2012-04-27得票数 4

1回答

java :在IOException作业期间写入死胡同

、

我有一个只有map的hadoop作业，它在工作期间抛出了几个IO异常：2) java.io.IOException:管道关闭我正在使用的配置文件：hadoop jar /usr/lib/hadoop-ma

浏览 23提问于2017-03-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云