腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
当
没有
任何
作业
在运
行时
,
是否
可以
让
Dataproc
集群
自动
缩减到
0个
工作
进程
?
、
、
、
我知道最好的做法是在不使用时删除
集群
,并
在运
行
作业
时启动一个
集群
,但我想知道我们
是否
可以
让
一个“
集群
”全天候运行,但在
没有
作业
运
行时
(或在一段时间内
没有
活动)时停止所有
工作
进程
,然后在
作业
启动时再次
自动
扩展
浏览 89
提问于2020-11-03
得票数 1
3
回答
为什么不推荐持久性
Dataproc
集群
?
我正在考虑运行一个持久化GCP
Dataproc
集群
,该
集群
承载一个Hive服务器,它将提供一个HiveQL接口,用于查询和更新存储在Google中的长期数据,通过访问。我正在阅读以下文档: 如果
没有
持久
集群
无法完成您的
工作
,则
可以
创建一个
集群
。如果有一种方法
可以
在短暂的
集群
上完成您的
工作
,那么这个选项可能很昂贵,并且不建议使用。除
浏览 3
提问于2022-01-11
得票数 2
1
回答
暂停
Dataproc
集群
- Google计算引擎
、
是否
有一种暂停
Dataproc
集群
的方法,这样当我
没有
主动运行星际争霸或火花提交
作业
时,就不会收到账单了吗?此链接上的群集管理说明: 只显示如何销毁一个
集群
,但我已经安装了火花卡桑德拉连接器API,例如。除了创建每次需要安装的映像之外,我唯一的选择是吗?
浏览 6
提问于2016-01-01
得票数 8
回答已采纳
1
回答
工作
流模板PySpark
作业
失败
、
、
、
为了遵循这个,我决定尝试
工作
流模板API。看上去是这样的:gcloudbeta
dataproc
workflow-templates set-managed-cluster lifestage-workflow \ --master-machine-type n1当我从我已经存在的
集群
中手动运行它时,
作业
就
可以</e
浏览 0
提问于2018-04-17
得票数 2
回答已采纳
1
回答
我们能否在
Dataproc
上创建一个包含HDFS 0%-2%的Hadoop
集群
?
、
、
、
通过将dfs.datanode.du.reserved设置为节点大小的95%或100%,
可以
在
Dataproc
上创建一个
没有
或非常小的HDFS空间的Hadoop
集群
吗?我确实创建了一个10-90分割的
集群
,并且
没有
注意到我的测试
作业
有
任何
问题。 如果采用这种方法,可能会出现
Dataproc
的稳定性问题吗?,
是否
担心从
Dataproc
的
工作
节点中删除数据节点守护
进程
浏览 1
提问于2022-07-11
得票数 1
2
回答
如何知道何时执行
dataproc
初始化操作
我使用的一个变体(因为我无法访问一般使用的存储桶),一切正常
工作
,但是当我运行一个
作业
时,
当
集群
启动并运
行时
,它总是导致一个Task was not acquired错误。我
可以
通过简单地在每个节点上重新启动
dataproc
代理来修复这个问题,但是我确实需要这样做才能在
集群
创建后立即运行
作业
。该脚本的这一部分似乎
没有
正常
工作
: # Restarts
Dataproc
Agent a
浏览 2
提问于2018-09-04
得票数 0
回答已采纳
6
回答
Google Cloud Dataflow和Google Cloud
Dataproc
之间的区别是什么?
、
、
看看谷歌的云服务,
DataProc
似乎也
可以
做同样的事情。为什么谷歌同时提供这两种服务?
浏览 1
提问于2017-09-27
得票数 66
1
回答
如何在
Dataproc
上调试星火
作业
?
、
、
我在
Dataproc
集群
上运行了一个Spark
作业
。如何配置环境,以便使用IDE在本地计算机上调试它?
浏览 1
提问于2020-07-23
得票数 6
回答已采纳
3
回答
Dataprep vs Dataflow vs
Dataproc
、
、
、
要执行源数据准备、数据转换或数据清理,我们应该在什么情况下使用Dataprep、Dataflow和
Dataproc
?
浏览 0
提问于2018-06-20
得票数 5
回答已采纳
1
回答
如何使
Dataproc
检测Python连接为纱线
作业
?
、
、
、
、
我启动一个
Dataproc
集群
并在其上服务Hive。远程从
任何
机器,我使用Pyhive或PyODBC连接到蜂巢和做事情。这不仅仅是一个查询。它
可以
是一个有间歇查询的长会话。即使在一个单一的活动查询期间,操作也不会显示为仪表板上的“
作业
”(我猜是Yarn)。相反,当我通过Pyspark“提交”任务时,它们就会显示为“乔布斯”。除了缺乏任务可见性之外,我还怀疑
集群
可能无法可靠地检测到Python客户端
是否
“连接”到它,因此
集群
的
自动
删除可
浏览 5
提问于2021-03-13
得票数 1
回答已采纳
1
回答
Google Cloud Data Fusion -
Dataproc
provisioning突然停止,
没有
任何
错误消息
在运
行管道时,操作突然停止,日志中
没有
任何
错误消息。已有所需的防火墙规则。请建议如何处理此问题。
浏览 1
提问于2019-04-30
得票数 4
3
回答
Dataproc
:配置火花驱动程序和执行器log4j属性
、
正如前面的答案所解释的,更改星火
集群
的详细内容的理想方法是更改。但是,在
dataproc
上,Spark运行在Yarn上,因此,我们必须调整全局配置,而不是/usr/lib/spark/conf。若干建议: 在
dataproc
上,我们有几个gcloud命令和属性,
可以
在
集群
创建过程中传递。
可以
更改/etc/hadoop/conf下的log4j.properties吗?另一种方法是在
集群
init期间使用s
浏览 6
提问于2016-03-23
得票数 5
回答已采纳
1
回答
Hadoop中的
作业
和任务调度
、
、
、
、
当我读到关于延迟公平调度的文章时,我对Hadoop中的“
作业
调度”和“任务调度”这两个术语并不感到困惑。如果我的假设是错误的,请纠正我: 每个
作业
可以
有多个映射和减少任务,它们是如何分配给每台机器的?单个
作业
的任务安排如何?“任务调度”的依据是什么?
浏览 6
提问于2013-09-29
得票数 5
回答已采纳
1
回答
纱线预留内存问题
、
当
使用FIFO调度器与纱线(FIFO是默认的对吗?),我发现纱线预留了一些内存/CPU来运行应用程序。我们的应用程序不需要保留
任何
这些,因为我们希望固定数量的核心来完成任务,这取决于用户的帐户。这个预留内存使我们的计算不准确,所以我想知道
是否
有办法解决这个问题。如果不可能删除这一点,我们将尝试缩放
集群
(我们在GCP上使用
dataproc
),但是如果
没有
优雅的分解,缩小
集群
就是关闭
作业
。 有什么办法
可以
摆脱保留的内存吗?
浏览 1
提问于2017-08-30
得票数 0
2
回答
如何使用AWS Fargate或AWS Beanstalk
、
、
我有一个java应用程序,它从SQS队列中读取数据,并执行一些业务处理,最后将其写入数据存储。随着SQS队列的增长,我希望能够扩展以读取更多消息并处理它们。每条SQS消息大约需要15到20分钟来处理。我正在寻找像AWS Fargate或AWS Beanstalk这样的服务来部署我的应用程序。钱不是问题,但可用性才是问题。最好的平台是什么?
浏览 2
提问于2019-05-14
得票数 0
1
回答
在形成测试后台“清理”任务的攻击计划时所需的高级帮助
、
、
、
、
有许多父
进程
在单独的EC2实例上运行这些
作业
,因此
当
父
进程
启动时,它不能假设处于“处理”状态的
任何
作业
都是孤立的,应该重新安排。由于我们的
自动
标度行为,我们不能真正标记那个特定“工人”以前已经开始的
作业
,所以它
可以
找到这些
作业
,并在重新启动时重新安排它们。那个工人可能永远不会重新启动。 我们通过心跳机制来处理。父
进程
在
作业
运
行时
将每个正
在运
行的子
浏览 0
提问于2019-03-23
得票数 3
2
回答
如何在虚拟机GCP中安装spark-bigquery-connector?
、
、
、
、
我在GCP中有一个带有spark install的VM镜像
集群
Hadoop,但它不是一个
dataproc
。我
可以
在不使用
dataproc
的情况下安装spark bigquery连接器吗?
浏览 0
提问于2020-11-14
得票数 0
1
回答
将存储过程并行化
是否
会在
集群
上产生更高的性能?
、
、
、
、
我目前正在研究加速和扩展长时间运行的匹配
作业
的方法,该
作业
目前在MSSQL2005中作为存储过程运行。匹配涉及具有多个不精确大小写的多个字段。考虑到我不太了解它们是如何运行的内部实现,我想知道
是否
可以
通过使用主过程划分数据集来将
进程
拆分为并行过程,主过程然后启动子过程,子过程在较小的数据集上
工作
。也许
浏览 0
提问于2010-11-19
得票数 2
回答已采纳
2
回答
每天部署数十万份短期
工作
、
、
、
、
我有一个系统,每天需要部署数十万份短期
工作
。每个任务运
行时
间从几秒钟到几个小时不等。每个
作业
都向外部web服务器发出HTTP请求,将数据写入磁盘(从几兆字节到数百web),并与数据库建立一系列连接。每个
作业
都是同一个Docker容器,运行同一个Java
进程
。每个
作业
都有不同的配置,作为环境变量传递。 我们目前使用“
作业
”规范在Kubernetes
集群
上部署这些
作业
。然而,
当
大量的
工作
将被运
行
浏览 0
提问于2019-07-11
得票数 2
3
回答
在不启动新
集群
的情况下从气流中触发Databricks
作业
、
我正在使用气流触发数据库上的
工作
。我有许多DAG
在运
行databricks
作业
,我希望只能使用一个
集群
而不是多个
集群
,因为据我所知,这将降低这些任务将产生的成本。使用DatabricksSubmitRunOperator,有两种方法
可以
在databricks上运行
作业
。或者使用正
在运
行的
集群
按id调用它。-db3-scala2.11', }, 现在,我想尽量避
浏览 1
提问于2019-02-06
得票数 8
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Uber正式开源分布式机器学习平台Fiber
Ceph 心跳机制详解
Spark 运行架构以及常用组件
百度深度学习平台PaddlePaddle框架解析
多维度立体化监控,才是真的监控
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券