如何将每个RDD分区限制为只有'n‘个记录？

在Spark中，可以使用repartition或coalesce方法将RDD的分区数量限制为'n'个记录。

repartition方法：该方法会对RDD进行重新分区，可以将RDD的分区数量增加或减少。如果要将每个分区限制为'n'个记录，可以先计算出每个分区应该包含的记录数量，然后使用repartition方法将RDD重新分区为对应数量的分区。
示例代码：
示例代码：
coalesce方法：该方法可以将RDD的分区数量减少，但不能增加。如果要将每个分区限制为'n'个记录，可以先计算出每个分区应该包含的记录数量，然后使用coalesce方法将RDD减少为对应数量的分区。
示例代码：
示例代码：

这样，每个RDD分区就被限制为只有'n'个记录。这种限制可以在某些场景下提高计算性能，例如在数据倾斜的情况下，可以通过限制每个分区的记录数量来均衡负载。

页面内容是否对你有帮助？

有帮助

没帮助

如何将每个RDD分区限制为只有'n‘个记录？

、

有没有办法让我指定每个JavRDD分区只有'n‘个记录？JavaRDD<String> res = rdd.mapPartitions((Iterator<String> iter) -> { Iterable<String> iterable

浏览 7提问于2019-09-20得票数 0

1回答

如何根据键值将密钥RDD划分为2个分区

、、

有一个包含车辆数据的RDD。我能够获得RD键-值对，将LIC_state作为每个记录的键。 如何将键控RDD划分为2个分区，将键值为SA的记录放在一个分区中，将其余的记录放在另一个分区中

浏览 17提问于2020-09-08得票数 0

回答已采纳

1回答

PySpark - JSON到RDD/coalesce

、、

根据对的建议，我能够以我想要的格式将RDD转换成JSON。为了将它保存到HDFS中，我想将其转换回RDD，并使用coalesce将其保存到10个分区文件中。我目前所做的是：使用my_rddcoalesce(10).saveAsTextFile进行合并和保存在我的测试中，这是成功执行的，但是10个分区文件中只有一个有数据。进

浏览 2提问于2018-06-26得票数 0

1回答

限制火花上下文中的记录数量

、、、、

我希望减少每个减速器的记录数，并将结果变量保持为rdd。rdd = rdd.zipWithIndex().filter(lambda x:x[1]<limit).map(lambda x:x[0]) 然而，这种方法非常缓慢，效率不高。是否有更明智的方法来获取一个小样本，并将数据结构保持为rdd</em

浏览 2提问于2016-03-08得票数 1

回答已采纳

1回答

每个键只保留有限数量的元素

、

目前，我试图为以下问题找到解决方案：经过一些处理后，我尝试将键的键值RDD中的值限制为某个数字(例如200)。我的最初解决方案是执行一个groupByKey，将所有具有相同密钥的元素放到一个分区中，然后是一个flatMapValues，在该分区中，我只需要使用可迭代的前200个元素。

浏览 4提问于2017-09-12得票数 2

1回答

RDD管道每行一个外部进程

、

我的上下文是我有一个csv文件，其中每一行都描述了我的模拟的一个实例的参数。null, false, Codec.defaultCharsetCodec.name) 我已经能够使用RDD.pipe但就目前而言，我不得不使用一个包装器脚本来循环/dev/stdin，并为每一行调用我的包装器。这是因为管道函数将来自一个分区的所有行应用于我的程序的相同子进程，而不是每个

浏览 5提问于2018-02-24得票数 1

2回答

星火流中的有序处理

、

我们的用例是从Kafka读取事件，每个主题都需要按顺序处理。据我所知，这是不可能的-每一个流被打破成RDDs，和RDDS是并行处理，所以没有办法保证订单。

浏览 1提问于2015-06-04得票数 7

回答已采纳

1回答

如何在dataFram中对列值执行基于行计数的动态分区

、、、

我试图基于accountId对输入文件进行分区，但只有当dataFrames包含超过1000个记录时，才能完成此分区。accountId是一个无法知道的动态整数。StreamingContext(sc, Seconds(2))lines.print() val count = rdd.cou

浏览 0提问于2016-07-29得票数 0

2回答

一个RDD记录能有多大？

、、

我有一个这样的RDD：节点由长类型整数表示，并将存储在Iterable[Long在这个Iterable中可以包含多少个元素？对于单个RDD记录的大小有什么限制(如果有的话)？

浏览 5提问于2016-03-09得票数 3

1回答

为什么UDF不在可用的执行器上并行运行？

、

我有一个小小的火花Dataframe，本质上是将一个字符串推入一个UDF。由于.repartition(3)的长度与targets相同，我期望在可用的执行器上应用run_sequential内部的处理--即应用于3个不同的执行程序。问题是只使用了一个执行者。我如何并行处理，以迫使我的target脚本将每个元素分配给不同的执行器？

浏览 4提问于2022-04-25得票数 0

回答已采纳

1回答

宽依赖关系的火花容错

、、

但是，如果节点在一个广泛的依赖项(如排序操作)之后崩溃，则它们没有说明它们要做什么。我唯一能找到的就是：这还不足以理解正在发生的事情。

浏览 5提问于2017-04-18得票数 3

回答已采纳

1回答

Apache是如何实现其topK() API的？

在Apache中有一个，它可以从RDD返回顶部的k元素。我想知道这个操作是如何实现的。它是否先对RDD进行排序，然后返回顶部的k值？还是使用其他更有效的实现？

浏览 2提问于2015-07-31得票数 4

回答已采纳

3回答

寻找一些信息使用自定义分区在火花公子。我有一个数据存储不同国家的国家数据。因此，如果我对country列进行重新分区，它将将我的数据分发到n个分区中，并将类似的国家数据保存到特定的分区中。当我看到使用glom()方法时，这将创建一个倾斜的分区数据。一些国家，如美国和中国，有大量的数据，特别是数据。我想重新划分我的数据，如果国家是美国和CHN，那么它将进一步分裂为大约10个分区，其他保持相同的其他国

浏览 3提问于2018-10-13得票数 6

回答已采纳

1回答

只能使用具有相同分区数错误的RDD进行压缩

、、、、

我有一台ipython笔记本，上面有pyspark代码，它在我的机器上运行得很好，但当我试图在另一台机器上运行它时，它在下面这一行(rdd3行)抛出错误：rdd3 = rdd1.zip(rdd2).map(lambda ((x1,x2,x3,x4), y): (y,x2, x3, x4))我得到的错误是= rdd1.zip(rdd2).map(l

浏览 1提问于2015-08-19得票数 1

1回答

使用comitAsync将结果发送到另一个主题的spark streaming

、、

OffsetRange[] offsetRanges = ((HasOffsetRanges) rdd).offsetRanges(); rdd.foreachPartition从主题A获得10个事件，在处理每个事件时，我向主题B发送了一个新事件。现在假设其中一个响应失败。现在，我不想将这个特定的偏移量提交给主题A。主题A和主题B具有相同数量的分区N。因此，每个RDD都应该使用来自相同

浏览 2提问于2018-02-09得票数 0

5回答

Spark textFile对wholeTextFiles

、、

我理解textFile为每个文件生成分区的基本原理，而wholeTextFiles则生成一对值的RDD，其中键是每个文件的路径，值是每个文件的内容。textFile.getNumPartitionsval textFile = sc.wholeTextFiles("my/path/*.csv",8)在这两种方法中，我都生成了8个分区

浏览 6提问于2017-11-06得票数 16

回答已采纳

3回答

DStream的RDD是否一次性提取为批处理间隔创建的整个数据？

、、、

我已经讨论了堆栈溢出问题，根据答案，它为批处理间隔创建了一个只有一个RDD的RDD。我的批处理间隔为1分钟，而火花流作业正在消耗来自Kafka主题的数据。我的问题是，在DStream中可用的RDD是否在最后一分钟包含整个数据？我们是否需要设置任何标准或选项来提取最后一分钟创建的所有数据？如果我有一个有3个分区的Kafka主题，而所有3个分区都包含最后一分钟的数据，那么DStream会在所

浏览 2提问于2016-11-13得票数 3

回答已采纳

2回答

星星之火-它们是如何工作的？

、、、、

假设我创建了一个RDD：val rdd = sc.textFile(file)rdd.map(x => x / rdd.size) 假设rdd中有100个对象，假设有10

浏览 6提问于2014-12-12得票数 21

回答已采纳

1回答

如何在spark中合并两个预先排序的rdd？

、、

我有两个较大的csv文件，其中一列预先排序。有没有一种方法可以利用它们已经排序的事实来更快地获得新的排序RDD，而不需要再次完全排序？

浏览 15提问于2016-08-26得票数 4

1回答

星星之火sql“创建表作为选择.”外记忆

、

错误信息是：我试着用火花放电来使用df.saveAsTable()。这在某些情

浏览 0提问于2019-04-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将每个RDD分区限制为只有'n‘个记录？

相关·内容

如何将每个RDD分区限制为只有'n‘个记录？

如何根据键值将密钥RDD划分为2个分区

PySpark - JSON到RDD/coalesce

限制火花上下文中的记录数量

每个键只保留有限数量的元素

RDD管道每行一个外部进程

星火流中的有序处理

如何在dataFram中对列值执行基于行计数的动态分区

一个RDD记录能有多大？

为什么UDF不在可用的执行器上并行运行？

宽依赖关系的火花容错

Apache是如何实现其topK() API的？

用自定义除法器划分电火花中的数据帧

只能使用具有相同分区数错误的RDD进行压缩

使用comitAsync将结果发送到另一个主题的spark streaming

Spark textFile对wholeTextFiles

DStream的RDD是否一次性提取为批处理间隔创建的整个数据？

星星之火-它们是如何工作的？

如何在spark中合并两个预先排序的rdd？

星星之火sql“创建表作为选择.”外记忆

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐