如何限制spark中每个分组键要处理的记录数量？(用于倾斜数据)

在Spark中，可以通过使用repartition和coalesce方法来限制每个分组键要处理的记录数量，以解决倾斜数据的问题。

repartition方法：该方法可以根据指定的分区数重新分区数据集。可以将分区数设置为较大的值，以增加并行度并减少每个分区的记录数量。示例代码如下：

# 假设rdd为要处理的数据集
rdd = rdd.repartition(100)  # 设置分区数为100

coalesce方法：该方法可以将数据集合并为较少的分区，可以用于减少分区数以增加每个分区的记录数量。示例代码如下：

# 假设rdd为要处理的数据集
rdd = rdd.coalesce(10)  # 合并为10个分区

这些方法可以根据具体情况进行调整，以达到限制每个分组键要处理的记录数量的目的。通过合理设置分区数，可以提高Spark作业的性能和稳定性。

推荐的腾讯云相关产品：腾讯云弹性MapReduce（EMR），是一种大数据处理和分析的托管服务，可以快速、灵活地处理大规模数据集。EMR提供了强大的计算和存储能力，适用于Spark等分布式计算框架。了解更多信息，请访问腾讯云EMR产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

如何限制spark中每个分组键要处理的记录数量？(用于倾斜数据)

我有两个大型数据集。有多个相同ids的分组。每组都有一个分数。我正试着将比分广播给每个组中的每个id。但是我有一个很好的约束，那就是我不关心I超过1000的组。不幸的是，Spark一直在阅读完整的分组。我似乎想不出一种方法来降低限制，这样Spark只能读取1000条记录，如果还有更多的

浏览 21提问于2019-07-25得票数 0

1回答

方法导致OutofMemory异常

、

我们使用Apache Beam，它是在火星车上执行的。我们的案件如下。这两个用例都会导致OutofMemory错误。1)连接-2个使用Apache的大表--一个大小为120 is的表，另一个为60 is的表。2) GroupByKey --我们根据如下键对数据集进行分组。从网上，我们看到了reduceByKey方法--请您指导我们如何为火花源运行人员实现该功能。at org.apache.spark.rdd.RDD.computeOr

浏览 1提问于2017-12-16得票数 0

回答已采纳

1回答

group by期间纱线杀死的火花容器

、

要获得某种形式的pivot，我需要按rowKey分组，这是一个字符串UUID，放入一个集合并在该集合中创建一个对象。问题是，我唯一要执行的group-by是统计group中的元素数量；其他group-by失败的原因是容器由于内存溢出超出了纱线容器限制而被杀死。我确实对内存大小做了很多实验，包括开销、分区和不排序等。该代码适用于较小的数据集，但不适

浏览 13提问于2017-02-16得票数 1

回答已采纳

1回答

为什么每个星火任务没有使用所有分配的核心？

、、、、

假设我每个执行器有36个核心，每个节点有一个执行器，每个节点有3个节点，每个节点有48个可用的核心。但是，当我将配置更改为每个任务有6个核心(--conf spark.task.cpus=6)时，我会将每个执行器每次下降到6个任务(如预期的那样)，但我的CPU利用率也会下降到10%以下(出乎意料)。我会假设Spark会知道如何在这6个核心上并行工作负载。重要的实

浏览 0提问于2018-01-04得票数 2

回答已采纳

1回答

Spark -如何保持对JavaPairRDD中分组的值数量的最大限制

、、、

我有一个这样的RDD：它有很多条目，一些键被重复了很多次。当我应用groupByKey或combineByKey时，它会生成另一个这就是问题所在，对于某些键集，值的数量非常大(因为特定的键是倾斜的这在进一步的下游消耗中造成了问题，甚至产

浏览 2提问于2018-01-22得票数 1

回答已采纳

1回答

使用Kafka的星火结构流-如何重新划分数据和在工作节点之间分配处理

、、、、

如果我的卡夫卡主题收到这样的记录ABC | 100 | .....val spark = SparkSession .appName("TestPartition") .master("local

浏览 0提问于2018-04-20得票数 5

1回答

了解与Kafka集成的一些概念和Hazelcast Jet

、

我正在尝试在Spark Structured和Hazelcast Jet之间映射一些概念，并理解其他主题。Q1 -在Spark中，每个Kafka分区将成为spark中的一个分区，然后它们将由单个任务并行处理。Q2 -我们如何在Jet程序中增加“消费者”的数量，以增加来自kafka的吞吐量消耗？在Spark中，我想我们只需要增加主

浏览 0提问于2018-01-23得票数 2

1回答

Spark的reduceByKey是使用固定数量的内存，还是按键数量的线性内存？

、、

据我所知，有外部排序和/或Hadoop MapReduce的解决方案，允许在按键对数据进行排序/分组时使用恒定数量的内存，以便通过每个键的聚合函数进行进一步的管道传输。这种常量内存分组/排序是否也适用于Apache Spark或Flink，如果是这样的话，在reduceByKey或aggregateByKey的情况下，是否有任何特定<

浏览 15提问于2020-01-17得票数 1

1回答

DynamoDB:什么时候使用什么PK类型？

、

我正在努力阅读关于DynamoDB的最佳实践。我看到DynamoDB有两种PK类型：如果有一些关于什么时候使用什么键类型的一般指导方针，那也是很好的。我读过几本指南(包括亚马逊自己关于DynamoDB的文档)，

浏览 1提问于2015-04-07得票数 5

回答已采纳

1回答

Apache Spark在reducer端使用键和源数据的映射而不是groupByKey()有什么好处吗？

在回顾这个问题时，，我发现我有类似的需求，但数据集要大得多。好消息是，我的每个组的数据将适合在reducer端的内存中。输出(从该

浏览 0提问于2016-06-26得票数 1

2回答

合并排序如何在星火中工作，为什么它可以抛出OOM？

我想深入了解合并排序加入星火的概念。我理解总体思路:这是与合并排序算法相同的方法:获取2个排序数据集，比较第一行，编写最小行，重复。我还理解如何实现分布式合并排序。但是，我无法了解它是如何在Spark中实现的，涉及分区和执行器的概念。考虑到我需要连接两个表A和B。如果这很重要的话，表可以通过Spark从Hive读取。这两个数据集将按键范围划分为200个部分:

浏览 5提问于2021-04-29得票数 6

1回答

如何确保每个火花DataFrame分区不超过给定的数据大小(MB)

在一次火花数据访问操作中，我发现每个任务的输入大小(MB)都有很大的差异。一些任务的大小几乎为1GB，而另一些任务的大小为15 1GB。较高的输入大小将导致执行器丢失。我知道调整spark.yarn.executor.memoryOverhead会使它在某一时刻起作用。但是我想知道，有什么方法可以重新划分DataFrame，使每个分区的大小不超过给定的大小(MB)。

浏览 4提问于2016-03-26得票数 0

1回答

如何使用MapReduce映射器将数据统一分发给还原器？

、

我对MapReduce只有一个较高层次的理解，但对于实现中允许的内容，我有一个具体的问题。(k,v) -> (proc_id, (k,v)) 其中proc_id是处理器的唯一标识符(假设每个键k都是唯一的)。核心问题是，如果减速器的数量不是固定的(根据输入的

浏览 1提问于2014-05-10得票数 0

回答已采纳

1回答

从非分区单元表到分区单元表的PySpark数据加载的性能优化

、、、

我们有一个要求，从一个非分区的work_db.customer_tbl外部蜂窝表通过PySpark从一个分区的外部的蜂巢表通过PySpark摄取数据，以前是通过hive查询完成的。因此，我们有一个简单的PySpark脚本，它使用一个插入查询(与前面使用的单元查询相同)来使用spark.sql()命令摄取数据。但是，我们有一些严重的性能问题，因为我们在摄入后试图摄入的表大约有3000分区，和每

浏览 2提问于2021-03-25得票数 0

1回答

火花流2.0 GC错误(混乱问题)

、、、

我的卡夫卡主题中有数以百万计的信息，不幸的是，无论我得到什么时间限制，星火流似乎都在排队等待所有的消息。我已经设置了16核和64 of的独立服务器，我给了我的驱动程序12G和执行器12G内存。:109) at org.apache.spark.rdd.RDD.iteratorat org.apache.<e

浏览 1提问于2016-09-14得票数 1

回答已采纳

1回答

按列分区但保持固定分区计数的有效方法是什么？

、

将数据按字段划分为预定义分区计数的最佳方式是什么？我目前正在通过指定partionCount=600对数据进行分区。发现计数600对于我的数据集/集群设置提供了最佳的查询性能。数据目前大约有2000个唯一的eventNames，加上每个eventName中的行数并不一致。大约10个eventNames拥有超过50%的数据，这会导致数据

浏览 3提问于2016-07-30得票数 10

1回答

spark streaming中限制Kafka消费数据

、、

Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于卡夫卡的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1属性来限制spark中的记录。但是仍然在5分钟内，我收到了13400条消息。我的spark程序每5分钟不能处理

浏览 17提问于2018-02-06得票数 0

2回答

是什么原因导致BigQuery中的“资源超出”？

我的查询失败，出现了“超出资源”错误。是什么导致了这个错误，我如何修复它？

浏览 4提问于2014-06-12得票数 6

回答已采纳

2回答

如何在hadoop/map还原中创建固定行数的输出文件？

、

假设我们有N个不同行数的输入文件。我们需要生成输出文件，例如每个输出文件都有精确的K行数(除了最后一个可以有<K记录的输出文件)。帕拉梅什

浏览 4提问于2013-12-13得票数 2

1回答

降低并行度会不会导致不出现随机溢出？

考虑一个例子：我有一个包含5个节点的集群，每个节点有64个内核和244 GB内存。我决定在每个节点上运行3个executor，并将executor-cores设置为21，executor内存为80 21，这样每个executor可以并行执行21个任务。现在考虑315(63 * 5)个数据分区，其中314个分区的大小为3 3GB，但其中一个分区的大小为30 3GB(由于数据倾斜)。所有收到3 3GB分区的execut

浏览 2提问于2019-11-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何限制spark中每个分组键要处理的记录数量？(用于倾斜数据)

相关·内容

如何限制spark中每个分组键要处理的记录数量？(用于倾斜数据)

方法导致OutofMemory异常

group by期间纱线杀死的火花容器

为什么每个星火任务没有使用所有分配的核心？

Spark -如何保持对JavaPairRDD中分组的值数量的最大限制

使用Kafka的星火结构流-如何重新划分数据和在工作节点之间分配处理

了解与Kafka集成的一些概念和Hazelcast Jet

Spark的reduceByKey是使用固定数量的内存，还是按键数量的线性内存？

DynamoDB:什么时候使用什么PK类型？

Apache Spark在reducer端使用键和源数据的映射而不是groupByKey()有什么好处吗？

合并排序如何在星火中工作，为什么它可以抛出OOM？

如何确保每个火花DataFrame分区不超过给定的数据大小(MB)

如何使用MapReduce映射器将数据统一分发给还原器？

从非分区单元表到分区单元表的PySpark数据加载的性能优化

火花流2.0 GC错误(混乱问题)

按列分区但保持固定分区计数的有效方法是什么？

spark streaming中限制Kafka消费数据

是什么原因导致BigQuery中的“资源超出”？

如何在hadoop/map还原中创建固定行数的输出文件？

降低并行度会不会导致不出现随机溢出？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐