Spark的reduceByKey是使用固定数量的内存，还是按键数量的线性内存？

、、

据我所知，有外部排序和/或Hadoop MapReduce的解决方案，允许在按键对数据进行排序/分组时使用恒定数量的内存，以便通过每个键的聚合函数进行进一步的管道传输。这种常量内存分组/排序是否也适用于Apache Spark或Flink，如果是这样的话，在reduceByKey或aggregateByKey的情况下，是否有任何特定<

浏览 15提问于2020-01-17得票数 1

2回答

Spark executor &任务并发性

、、

在Spark中，一个执行器可以同时运行多个任务，可能是2个、5个或6个。executor具有固定数量的内核和内存。由于我们没有为Spark中的任务指定内存和内核要求，如何计算一个executor中可以并发运行的</e

浏览 1提问于2016-09-08得票数 2

2回答

Apache :限制TaskManager中CPU的数量

、、

第一个，我是运行在独立模式！但是在Flink中，您只需要设置要使用的最大内存和任务槽的数量(这只是将内存分开

浏览 2提问于2017-06-23得票数 3

1回答

经过洗牌后，星火分区的内容是否发生变化？

、

每个分区的初始内容是在Spark中的洗牌(例如，如果我们执行reduceByKey)结束后更改，还是Spark只是将数据读入内存而不更改分区？

浏览 6提问于2016-11-29得票数 0

回答已采纳

1回答

火花溢出与指定的执行器内存无关

、、

我注意到了在使用spark 2.0运行pyspark应用程序时的奇怪行为。在我的脚本的第一步中，涉及到一个reduceByKey (因此是洗牌)操作，我观察到洗牌所写的内容大致符合我的预期，但溢出的情况比我预想的要多。我试图通过将每个执行器分配的内存数量增加到原来的8倍来避免这些溢出，但基本上没有发现溢出量的差

浏览 2提问于2016-12-27得票数 4

回答已采纳

1回答

查找每per聚类中的顶部单词

、、、

clusterIds = clusters.predict(tfidf)cluster_value = mapped_value.reduceByKeyword_count = sc.parallelize(i[1]) word_count.map(lambda x: (x,1)) .takeOrdered(5, ke

浏览 2提问于2015-11-08得票数 1

回答已采纳

2回答

我在独立模式下运行spark集群，应用程序使用spark-submit。在spark UI阶段部分，我发现执行阶段的执行时间很长(> 10h，通常时间约为30秒)。阶段有许多失败的任务，错误为Resubmitted (resubmitted due to lost executor)。阶段页的Aggregated Metrics by Executor部分中有地址为CANNOT FIND ADDRESS的executor。Spark</e

浏览 2提问于2016-12-01得票数 10

回答已采纳

2回答

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

、、、

spark.sql.shuffle.partitions和spark.default.parallelism有什么不同我尝试在SparkSQL中设置这两个任务，但第二阶段的任务号总是200。

浏览 1提问于2017-08-16得票数 95

回答已采纳

1回答

检查RDD中是否存在值

、、

我已经用python写了一个工作正常的Spark程序。myrdd

浏览 1提问于2016-11-25得票数 2

2回答

获取大输入文件时触发OutOfMemoryError

我有一个spark应用程序，它读取一个包含1亿行的文件(每行都有一个代码，如US1.234.567B1)，并从中获取一些模式，如下所示： val codes = sc.textFile("/data我认为只要有足够的硬盘空间，火花就可以处理任何大小的输入。

浏览 4提问于2016-09-30得票数 0

回答已采纳

1回答

火花执行者和任务

、、

在Spark中，执行者可能同时运行许多任务--可能是2、5或6。星火如何计算出(或计算)在同一个执行器中同时运行的任务数量，即一个执行器可以同时运行多少个任务？执行器被分配一个固定数量的核心&内存。由于我们没有为Spark中的任务指定内存和核心需求，那么如何计算在一个执行器中可以并发运行多少？

浏览 0提问于2016-09-05得票数 2

1回答

交叉加入操作的集群配置

、、、

我正在AWS EMR中运行spark应用程序。该应用程序涉及对300000列执行mllib函数(columnSimilarities)和交叉联接操作。当我运行当前的集群配置时，我得到了内存不足的错误。我的疑问是，是应该增加节点数量，还是应该升级实例类型而保持节点数量不变。另外，我们如何决定主node.Thank的内存大小。

浏览 14提问于2017-02-23得票数 0

1回答

如果我使用只有两个键的reduceByKey或groupByKey one大型数据集，会发生什么情况

、、

我正在使用spark来处理我的数据。我有成对的RDD，它分布在多个executors上。数据大小为10tb，分区数为4000。总共有100个executor，每个executor的内存是20 is。i.eresultRdd = pairedRDD.reduceByKey(lam

浏览 0提问于2020-03-12得票数 2

1回答

spark如何在幕后读取数据？

、、

例如，我有点困惑于spark是如何从s3读取数据的。假设要从s3读取100 GB的数据，而spark集群的总内存为30 GB。spark是否会在触发操作后读取所有100 GB的数据，并将最大数量的分区存储在内存中，并将剩余的分区溢出到磁盘?还是只读取可以存储在内存中的分区，对其进行处理，然后读取其余数据？任何到

浏览 2提问于2021-09-19得票数 2

2回答

什么是谷歌AppEngine实例？

根据他们退出预览时更改计费模型的计划，Google App Engine实例到底是什么？实例是具有一组内存和固定数量的专用CPU电源、内存等还是其他东西的VM？

浏览 0提问于2011-06-09得票数 4

回答已采纳

1回答

容器在一个小时后由于OOM而崩溃

、、、、

我在DC/OS上使用docker运行spark。当我提交spark作业时，使用以下内存配置Executor 2 Gb 执行程序的数量为3个。spark提交工作正常，1小时后，docker容器(worker容器)由于OOM (退出代码137)而崩溃。但是我的spark日志显示内存的1Gb+是可用的。奇怪的</e

浏览 0提问于2017-10-02得票数 0

1回答

为什么分配给火花驱动程序/执行器的内存数量与我从火花提交中传递的内存不同？

、

这似乎是一个非常简单的问题，但我不明白为什么我传递给我的spark-submit工作的内存数量与Spark实际使用的内存数量之间存在不匹配。例如，在我的本地计算机(一个运行MacBook的16 my内存的macOS Pro )上，我将以下内容传递到参数中： spark-submit --dri

浏览 2提问于2018-07-26得票数 0

回答已采纳

1回答

如果不做滚动更新，为什么要自动升级？

、

关于这个，我想我理解在更新期间临时水平缩放一个荚的价值。例如，你从1荚到2荚-更新荚1，然后删除荚2。如果不进行更新，水平缩放Kubernates有什么价值吗？复制豆荚不是只会降低每个荚的性能吗？例如，将吊舱数量增加一倍，同时保持RAM的数量不变，这就意味着每个吊舱的内存只有原来的一半。

浏览 3提问于2016-02-02得票数 0

回答已采纳

1回答

Spark性能监控

、、

我需要向管理/客户端显示用于运行spark作业的executor-memory、内核数量、默认并行度、shuffle分区数量和其他配置属性没有过多或超过要求。我需要一个监控(与可视化)工具，通过它我可以证明spark作业中的内存使用情况。此外，它还应该提供内存未正确使用或某些工作需要更多内存等信息。请推荐一些应用程序或工具。

浏览 13提问于2019-12-27得票数 0

2回答

在spark中对海量数据运行reduceByKey

我在spark中运行reduceByKey。我的程序是spark最简单的例子： .reduceByKey(_ + _, 10000) counts.saveAsTextFile("hdfs:/

浏览 0提问于2015-07-01得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark executor &任务并发性

Apache :限制TaskManager中CPU的数量

经过洗牌后，星火分区的内容是否发生变化？

火花溢出与指定的执行器内存无关

查找每per聚类中的顶部单词

Spark应用程序杀死执行者

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

检查RDD中是否存在值

获取大输入文件时触发OutOfMemoryError

火花执行者和任务

交叉加入操作的集群配置

如果我使用只有两个键的reduceByKey或groupByKey one大型数据集，会发生什么情况

spark如何在幕后读取数据？

什么是谷歌AppEngine实例？

容器在一个小时后由于OOM而崩溃

为什么分配给火花驱动程序/执行器的内存数量与我从火花提交中传递的内存不同？

如果不做滚动更新，为什么要自动升级？

Spark性能监控

在spark中对海量数据运行reduceByKey

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐