腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(46)
视频
沙龙
1
回答
Google
Dataproc
仪表板
上
未
列出
Druid
Mapreduce
作业
我有一个本地Apache
Druid
,我设法让
Druid
在
Dataproc
集群
上
执行Hadoop摄取
作业
(
Mapreduce
)。
作业
运行正常,但在
Dataproc
仪表板
上
看不到问题。注意:
Dataproc
集群和
Druid
之间的唯一连接是主节点和
Druid
集群之间的VPN连接。
浏览 11
提问于2020-09-29
得票数 1
回答已采纳
2
回答
运行时请求不充分的身份验证作用域
、
、
我试图在
google
dataproc
集群
上
运行星星之火
作业
,如--jarfile:///usr/lib/hadoop-
mapreduce
/hadoop-
mapreduce
-examples.jar \ --class org.apache.hadoop.examples.
浏览 6
提问于2017-04-12
得票数 9
回答已采纳
3
回答
是否可以使用
Google
Dataproc
上
的初始化脚本向集群提交
作业
?
、
我在1个集群
上
使用1个
作业
的
Dataproc
。 我希望在创建群集后立即开始我的
作业
。我发现实现这一点的最佳方法是使用如下所示的初始化脚本提交
作业
。gcloud
dataproc
jobs submit pyspark ...export -f submit_job echo "checkinggcloud
dataproc
clusters list --region='asia-no
浏览 54
提问于2021-09-03
得票数 3
回答已采纳
1
回答
如何在
Dataproc
Serverless
上
运行的Spark中重命名GCS文件?
、
、
、
getPath().getName()这里运作的很好.但是,当我在
Dataproc
上
运行jar时,会得到一个错误,如下所示: Exception in thread "main" java.lang.IllegalArgumentException: Wrong bucket: prj-***, in path: gs:/
浏览 8
提问于2022-07-19
得票数 2
1
回答
使用HBaseStorage在
Dataproc
上
通过Pig从Bigtable加载
、
、
、
、
AS (key:chararray, data); 设置群集所遵循的步骤: 为hbase-site.xml和BigtableConnectio
浏览 6
提问于2017-03-21
得票数 2
回答已采纳
1
回答
Google
Dataproc
-经常断开与执行者的连接
、
我正在使用
Dataproc
在使用spark-shell的集群
上
运行Spark命令。我经常收到错误/警告消息,表明我失去了与执行器的连接。
浏览 0
提问于2016-01-20
得票数 1
1
回答
提交
Google
Dataproc
Hadoop
作业
时找不到Hadoop流jar?
、
当尝试以编程方式(从使用
dataproc
库的
MapReduce
应用程序)提交Hadoop
作业
时,
作业
立即失败。当通过UI提交完全相同的
作业
时,它工作得很好。我在
Dataproc
集群
上
尝试了SSHing,以确认该文件是否存在,检查权限,并更改了jar引用。到目前为止,一切都还没有奏效。2.8.4.jarat java.lang.Class.forName(Class.java:264)
浏览 22
提问于2019-01-02
得票数 0
回答已采纳
1
回答
Dataproc
客户端: googleapiclient :获取所有
作业
列表的方法(runnng,stopped ..等)在集群中
、
、
我们正在使用
Google
Cloud
Dataproc
来运行sparkJobs。我们需要获取与集群相对应的所有
作业
及其状态的列表。如果我知道job_id,我可以获得
作业
的状态,如下所示 projectIdregion=region, jobId="ab4f5d05-e890-4ff5-96ef-017df2b5c0bc").ex
浏览 0
提问于2016-07-11
得票数 0
1
回答
Apache束流管道的缺失度量(通过SparkRunner /
Dataproc
)
、
、
、
、
目前,我正在通过Stackdriver向运行在
Google
上
的现有管道中添加一些指标,并试图确定如何访问这些指标,并最终将其公开给Stackdriver(在Grafana
仪表板
下游使用)。我已经尝试过浏览日志和任何可能的地方,但是我没有看到这些自定义度量的任何迹象(或者实际
上
是从Spark和/或Stackdriver发出的任何度量标准)。
作业
配置gcloud
datapro
浏览 5
提问于2021-01-14
得票数 2
回答已采纳
1
回答
如何在
Google
中优化Hadoop
MapReduce
压缩火花输出?
、
、
我试过两种方法: 一些
作业
细节:大约8亿行。大约9000火花分区文件输出由星火
作业
。星火
作业
大约需要一个小时才能在一个主服务器、4
浏览 1
提问于2018-12-27
得票数 0
4
回答
使用Airflow _DataProcJob挂钩禁用
dataproc
中的附加
作业
、
、
我使用通过airflow在GCP
dataproc
中运行
作业
。在每个
作业
执行之前,使用检查该
作业
是否可以附加到以前执行的
作业
的钩子。附加
作业
时,除非我删除前一个(附加的)
作业
,否则dataprock不会执行该
作业
有什么方法可以禁用附件吗?of states that we will accept as sufficient # for attaching the new task insta
浏览 1
提问于2020-06-03
得票数 3
1
回答
DataProc
上
的执行器心跳超时
、
、
我正在尝试在一个
Google
DataProc
集群
上
安装Spark (2.0.0)的ml模型。当拟合模型时,我会收到执行者心跳超时错误。我怎么解决这个问题?我的背景:设置:=-Xmx4915m
dataproc</e
浏览 3
提问于2016-09-03
得票数 0
1
回答
Dataproc
上
的增量Sqoop提供了"util.AppendUtils:无法将文件追加到目标dir;没有这样的目录“
、
、
我可以通过hadoop/
google
上
的sqoop
作业
运行postgresql表的完整导出,以导出到
google
存储桶。但是,当我尝试增量导出时,它失败了。gcloud
dataproc
jobs submit hadoop \ --class=org.apache.sqoop.Sqoop \--properties=
mapreduce
.job.classloader=true \ --ja
浏览 1
提问于2020-03-13
得票数 3
1
回答
hadoop临时表中的
Dataproc
冲突
、
、
我有一个流,它为不同的区域并行执行
Dataproc
集群
上
的火花
作业
。对于每个区域,它创建一个集群,执行星火
作业
,并在集群完成后删除它。
作业
将数据保存在多个表中,每个
作业
调用saveAsNewAPIHadoopDataset方法不止一次。上面异常
上
的时间戳201802250620_0013具有_0013 sufix,我不确定它是否代表时间。 我的想法是,有时
作业
同时运行,并试图创建一个名称中具有相同时间戳的数据集。或者在并行
作业
中,或者
浏览 0
提问于2018-03-13
得票数 0
回答已采纳
4
回答
Google
Dataflow对Apache Spark
、
、
、
我正在调查、
Google
、Dataflow、和Apache ,以决定哪种解决方案更适合我们的大数据分析业务需求。
浏览 2
提问于2015-11-04
得票数 32
回答已采纳
1
回答
从Pyspark加载进程从GCS加载,转换并保存到不同的GCS不工作
、
、
': '-Xmx2304m', 'distcp:
mapreduce
.map.memory.mb': '3024', 'spark:s
浏览 78
提问于2021-11-03
得票数 3
2
回答
在
dataproc
上
用PEX环境封装PySpark
、
、
、
、
我正试图在
google
上
使用PEX打包一个pyspark
作业
,但是我得到了一个Permission Denied错误。from
google
.cloud import
dataproc
_v1 as
dataproc
job_client =
dataproc<
浏览 18
提问于2022-01-19
得票数 2
回答已采纳
2
回答
文件系统提供商在星火中消失?
、
我使用maven来依赖,它通过"gs://“URL为
Google
提供了一个FileSystem。我的星火项目使用maven-阴影插件来创建一个包含所有源的大jar。大jar正确地包含了一个META-INF/services/java.nio.file.spi.FileSystemProvider文件,其中包含了类的正确名称(com.
google
.cloud.storage.contrib.nio.CloudStorageFileSystemProvider该程序使用FileSystemProvider.ins
浏览 2
提问于2016-09-14
得票数 2
2
回答
如何提高
Google
App Engine的隐藏"file.Open“配额
、
、
、
、
在GAE
上
运行
MapReduce
作业
时,我达到了下面
列出
的配额限制。限制是每天接收100 is的“文件字节”,据我所知这是从Blobstore接收的文件字节。/
mapreduce
_pipeline.py", line 109, in __iter__ File "/base/data/home
浏览 3
提问于2012-04-27
得票数 4
1
回答
java :在IOException
作业
期间写入死胡同
、
我有一个只有map的hadoop
作业
,它在工作期间抛出了几个IO异常:2) java.io.IOException:管道关闭我正在使用的配置文件:hadoop jar /usr/lib/hadoop-
ma
浏览 23
提问于2017-03-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Netflix 是如何实现每秒200万次的数据处理?
Netflix 是如何实现每秒200万次的数据处理?
全面解析大数据框架Hadoop主要模块
自学14天后,我毁掉了自己的数据工程师面试
常见算法及数据结构之MapReduce
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券