腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
的
reduceByKey
是
使用
固定
数量
的
内存
,
还是
按键
数量
的
线性
内存
?
、
、
据我所知,有外部排序和/或Hadoop MapReduce
的
解决方案,允许在
按键
对数据进行排序/分组时
使用
恒定
数量
的
内存
,以便通过每个键
的
聚合函数进行进一步
的
管道传输。这种常量
内存
分组/排序是否也适用于Apache
Spark
或Flink,如果
是
这样的话,在
reduceByKey
或aggregateByKey
的
情况下,是否有任何特定<
浏览 15
提问于2020-01-17
得票数 1
2
回答
Spark
executor &任务并发性
、
、
在
Spark
中,一个执行器可以同时运行多个任务,可能
是
2个、5个或6个。executor具有
固定
数量
的
内核和
内存
。由于我们没有为
Spark
中
的
任务指定
内存
和内核要求,如何计算一个executor中可以并发运行
的</e
浏览 1
提问于2016-09-08
得票数 2
2
回答
Apache :限制TaskManager中CPU
的
数量
、
、
第一个,我
是
运行在独立模式! 但是在Flink中,您只需要设置要
使用
的
最大
内存
和任务槽
的
数量
(这只是将
内存
分开
浏览 2
提问于2017-06-23
得票数 3
1
回答
经过洗牌后,星火分区
的
内容是否发生变化?
、
每个分区
的
初始内容
是
在
Spark
中
的
洗牌(例如,如果我们执行
reduceByKey
)结束后更改,
还是
Spark
只是将数据读入
内存
而不更改分区?
浏览 6
提问于2016-11-29
得票数 0
回答已采纳
1
回答
火花溢出与指定
的
执行器
内存
无关
、
、
我注意到了在
使用
spark
2.0运行pyspark应用程序时
的
奇怪行为。在我
的
脚本
的
第一步中,涉及到一个
reduceByKey
(因此
是
洗牌)操作,我观察到洗牌所写
的
内容大致符合我
的
预期,但溢出
的
情况比我预想
的
要多。我试图通过将每个执行器分配
的
内存
数量
增加到原来
的
8倍来避免这些溢出,但基本上没有发现溢出量
的
差
浏览 2
提问于2016-12-27
得票数 4
回答已采纳
1
回答
查找每per聚类中
的
顶部单词
、
、
、
clusterIds = clusters.predict(tfidf)cluster_value = mapped_value.
reduceByKey
word_count = sc.parallelize(i[1]) word_count.map(lambda x: (x,1)) .takeOrdered(5, ke
浏览 2
提问于2015-11-08
得票数 1
回答已采纳
2
回答
Spark
应用程序杀死执行者
我在独立模式下运行
spark
集群,应用程序
使用
spark
-submit。在
spark
UI阶段部分,我发现执行阶段
的
执行时间很长(> 10h,通常时间约为30秒)。阶段有许多失败
的
任务,错误为Resubmitted (resubmitted due to lost executor)。阶段页
的
Aggregated Metrics by Executor部分中有地址为CANNOT FIND ADDRESS
的
executor。
Spark</e
浏览 2
提问于2016-12-01
得票数 10
回答已采纳
2
回答
spark
.sql.shuffle.partitions和
spark
.default.parallelism有什么区别?
、
、
、
spark
.sql.shuffle.partitions和
spark
.default.parallelism有什么不同 我尝试在SparkSQL中设置这两个任务,但第二阶段
的
任务号总是200。
浏览 1
提问于2017-08-16
得票数 95
回答已采纳
1
回答
检查RDD中是否存在值
、
、
我已经用python写了一个工作正常
的
Spark
程序。myrdd
浏览 1
提问于2016-11-25
得票数 2
2
回答
获取大输入文件时触发OutOfMemoryError
我有一个
spark
应用程序,它读取一个包含1亿行
的
文件(每行都有一个代码,如US1.234.567B1),并从中获取一些模式,如下所示: val codes = sc.textFile("/data我认为只要有足够
的
硬盘空间,火花就可以处理任何大小
的
输入。
浏览 4
提问于2016-09-30
得票数 0
回答已采纳
1
回答
火花执行者和任务
、
、
在
Spark
中,执行者可能同时运行许多任务--可能
是
2、5或6。 星火如何计算出(或计算)在同一个执行器中同时运行
的
任务
数量
,即一个执行器可以同时运行多少个任务?执行器被分配一个
固定
数量
的
核心&
内存
。由于我们没有为
Spark
中
的
任务指定
内存
和核心需求,那么如何计算在一个执行器中可以并发运行多少?
浏览 0
提问于2016-09-05
得票数 2
1
回答
交叉加入操作
的
集群配置
、
、
、
我正在AWS EMR中运行
spark
应用程序。该应用程序涉及对300000列执行mllib函数(columnSimilarities)和交叉联接操作。当我运行当前
的
集群配置时,我得到了
内存
不足
的
错误。我
的
疑问
是
,
是
应该增加节点
数量
,
还是
应该升级实例类型而保持节点
数量
不变。另外,我们如何决定主node.Thank
的
内存
大小。
浏览 14
提问于2017-02-23
得票数 0
1
回答
如果我
使用
只有两个键
的
reduceByKey
或groupByKey one大型数据集,会发生什么情况
、
、
我正在
使用
spark
来处理我
的
数据。我有成对
的
RDD,它分布在多个executors上。数据大小为10tb,分区数为4000。总共有100个executor,每个executor
的
内存
是
20 is。i.eresultRdd = pairedRDD.
reduceByKey
(lam
浏览 0
提问于2020-03-12
得票数 2
1
回答
spark
如何在幕后读取数据?
、
、
例如,我有点困惑于
spark
是
如何从s3读取数据
的
。假设要从s3读取100 GB
的
数据,而
spark
集群
的
总
内存
为30 GB。
spark
是否会在触发操作后读取所有100 GB
的
数据,并将最大
数量
的
分区存储在
内存
中,并将剩余
的
分区溢出到磁盘?
还是
只读取可以存储在
内存
中
的
分区,对其进行处理,然后读取其余数据?任何到
浏览 2
提问于2021-09-19
得票数 2
2
回答
什么
是
谷歌AppEngine实例?
根据他们退出预览时更改计费模型
的
计划,Google App Engine实例到底是什么? 实例
是
具有一组
内存
和
固定
数量
的
专用CPU电源、
内存
等
还是
其他东西
的
VM?
浏览 0
提问于2011-06-09
得票数 4
回答已采纳
1
回答
容器在一个小时后由于OOM而崩溃
、
、
、
、
我在DC/OS上
使用
docker运行
spark
。当我提交
spark
作业时,
使用
以下
内存
配置Executor 2 Gb 执行程序
的
数量
为3个。
spark
提交工作正常,1小时后,docker容器(worker容器)由于OOM (退出代码137)而崩溃。但是我
的
spark
日志显示
内存
的
1Gb+
是
可用
的
。奇怪
的</e
浏览 0
提问于2017-10-02
得票数 0
1
回答
为什么分配给火花驱动程序/执行器
的
内存
数量
与我从火花提交中传递
的
内存
不同?
、
这似乎
是
一个非常简单
的
问题,但我不明白为什么我传递给我
的
spark
-submit工作
的
内存
数量
与
Spark
实际
使用
的
内存
数量
之间存在不匹配。例如,在我
的
本地计算机(一个运行MacBook
的
16 my
内存
的
macOS Pro )上,我将以下内容传递到参数中:
spark
-submit --dri
浏览 2
提问于2018-07-26
得票数 0
回答已采纳
1
回答
如果不做滚动更新,为什么要自动升级?
、
关于这个,我想我理解在更新期间临时水平缩放一个荚
的
价值。例如,你从1荚到2荚-更新荚1,然后删除荚2。 如果不进行更新,水平缩放Kubernates有什么价值吗?复制豆荚不是只会降低每个荚
的
性能吗?例如,将吊舱
数量
增加一倍,同时保持RAM
的
数量
不变,这就意味着每个吊舱
的
内存
只有原来
的
一半。
浏览 3
提问于2016-02-02
得票数 0
回答已采纳
1
回答
Spark
性能监控
、
、
我需要向管理/客户端显示用于运行
spark
作业
的
executor-memory、内核
数量
、默认并行度、shuffle分区
数量
和其他配置属性没有过多或超过要求。我需要一个监控(与可视化)工具,通过它我可以证明
spark
作业中
的
内存
使用
情况。此外,它还应该提供
内存
未正确
使用
或某些工作需要更多
内存
等信息。 请推荐一些应用程序或工具。
浏览 13
提问于2019-12-27
得票数 0
2
回答
在
spark
中对海量数据运行
reduceByKey
我在
spark
中运行
reduceByKey
。我
的
程序
是
spark
最简单
的
例子: .
reduceByKey
(_ + _, 10000) counts.saveAsTextFile("hdfs:/
浏览 0
提问于2015-07-01
得票数 8
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
谷歌:使用 Rust 后,安卓系统的内存安全漏洞数量大幅下降
枚举,一个特殊的类,是固定数量的多个常量对象的集合
“固定格式图片”二维码正在加速消耗,留给我们使用的数量还剩多少?
Spark高性能优化一:让你拥有大牛的开发理念
高性能Spark作业基础:你必须知道的调优原则及建议
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券