如何根据行和列的值更改PySpark数据帧的大小和分布？

在PySpark中，可以使用repartition()和coalesce()方法来更改数据帧的大小和分布。

repartition()方法：该方法用于重新分区数据帧，可以根据指定的列进行分区。它会将数据打散并重新分配到不同的分区中，可以增加或减少分区的数量。使用repartition()方法时，Spark会进行数据的全量洗牌操作，因此适用于需要重新分区的场景。

示例代码：

# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取数据为数据帧
df = spark.read.csv("data.csv", header=True)

# 根据行和列的值重新分区数据帧
df = df.repartition("column1", "column2")

# 查看分区数量
print(df.rdd.getNumPartitions())

coalesce()方法：该方法用于合并数据帧的分区，可以减少分区的数量。与repartition()方法不同，coalesce()方法不会进行全量洗牌操作，而是将数据尽可能地合并到较少的分区中。因此，使用coalesce()方法时，不能增加分区的数量，只能减少。

示例代码：

# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取数据为数据帧
df = spark.read.csv("data.csv", header=True)

# 根据行和列的值合并数据帧的分区
df = df.coalesce(2)

# 查看分区数量
print(df.rdd.getNumPartitions())

在上述示例代码中，"data.csv"是输入数据的文件路径，"column1"和"column2"是根据哪些列进行分区的参数。根据具体的需求，可以灵活地选择使用repartition()或coalesce()方法来更改数据帧的大小和分布。

腾讯云相关产品和产品介绍链接地址：

腾讯云PySpark：https://cloud.tencent.com/document/product/849/48288
腾讯云数据仓库DWS：https://cloud.tencent.com/product/dws
腾讯云弹性MapReduce：https://cloud.tencent.com/product/emr
腾讯云数据计算服务DCS：https://cloud.tencent.com/product/dcs

如何根据行和列的值更改PySpark数据帧的大小和分布？

、、、、

我有一个很大的PySpark DataFrame，我想在下面的例子中操作它。我认为想象它比描述它更容易。3 |+----------+-----------+-----------+ 在上面的DataFrame中，series列中包含的三个唯一值(即ID1、ID2和ID3)中的每一个都有相应的值(在values列下)同时出现(即timest

浏览 12提问于2021-01-03得票数 1

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

2回答

我有大量的最终结果数据，这些数据在我感兴趣的列中分布得并不均匀。当我通过分区直接写入时，每个分区具有与spark.sql.shuffle.partitions相同数量的文件。这会导致拥挤分区中的每个文件都非常大(以GB为单位)，但在其他一些分区中，文件大小实际上很小(甚至以KB为单位)。有没有办法改变每个分区的文件数？------------------+----------+df.write.p

浏览 2提问于2018-12-05得票数 0

2回答

R中的数据帧(产品)相关性

、、

我有2个数据帧，每个数据帧有150行和10列+列和行ID。我想要将一个数据帧中的每一行与另一数据帧中的每一行相关联(例如，150x150相关性)，并绘制得到的22500个值的分布。(然后，我想从分

浏览 1提问于2013-05-16得票数 1

3回答

如何将整个pyspark数据帧的大小写更改为下或上

、、、、

我正在尝试对两个数据帧中的每一行应用pyspark sql函数散列算法，以确定差异。哈希算法是区分大小写的.i.e。如果列包含'APPLE‘和'Apple’被认为是两个不同的值，所以我想将两个数据帧的大小写都改为上或下。

浏览 41提问于2018-02-01得票数 6

回答已采纳

3回答

按列比较两个熊猫数据帧的行，并保持较大和。

、、、

我有两个具有相同结构的I的数据帧：这两者之间的唯一区别应该是列值中的值--它可能首先需要按ID排序，因此两者都有相同的行顺序来确保。我希望根据列值逐行比较这两个数据帧，并根据值较大的位置将该行保持在第一或第二行</e

浏览 4提问于2015-12-11得票数 2

回答已采纳

1回答

pyspark.sql.utils.IllegalArgumentException：‘字段’features‘不存在

、、

我正在尝试通过SparkNLP对文本数据进行主题建模和情感分析。我已经对数据集执行了所有预处理步骤，但在LDA中遇到错误。Error 程序是： from pyspark.ml import Pipelinefrom pyspark.sql.types imp

浏览 187提问于2021-04-22得票数 1

回答已采纳

1回答

从PySpark运行大量配置单元查询

、、、

我想要执行大量的配置单元查询，并将结果存储在数据帧中。我有一个非常大的数据集，结构如下：| visid_high，它使用每一行作为二级查询的输入：for session in sessions.collect()[:100]: query = "SELECT pr

浏览 5提问于2018-07-23得票数 0

2回答

要为每行pyspark* dataframe计算多个if elif条件*

、、、

我需要帮助在pyspark数据帧主题。我有一个数据框架，比如1000+列和100000+ rows.Also，我有10000+ if elif条件，在每个if else条件下，只有很少的全局变量被一些值递增。现在我的问题是，我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数，它们根据条件返回行，我需要检查这些10000+ i

浏览 0提问于2017-07-25得票数 0

1回答

在星火中处理大型(局部)矩阵

、、、、

假设我有100万用户，我使用SparkML的pyspark.ml.stat.Correlation.corr计算用户对之间的Pearson相关性。通过文档，此方法包含向量列的相关矩阵的DataFrame。这个DataFrame包含一个行和一个名为‘$METHODNAME($COLUMN)’的列。矩阵(DenseMatrix)本身并不是分布式的()，据我理解，它必须适合我

浏览 0提问于2018-12-09得票数 0

1回答

当表大小是可变的时，如何指定列索引以使用dplyr进行跨行变异？

、、

我使用下面示例代码的一个版本将表值转换为百分比。我遇到的问题是，这段代码部署在一个闪亮的应用程序中，在这个应用程序中，表大小根据用户输入(由列和行)进行了反应性扩展/收缩，甚至最左边的列标题(此数据帧示例中的"To“列标题)也根据用户输入进行了反应性的更改

浏览 8提问于2022-04-01得票数 0

回答已采纳

1回答

R中两个数据的盒形图

、、

我想从中创建一个盒子图，在R中有两个不同的数据格式，在每个dataframe中，行表示示例。而列代表疾病。框图分布应根据每行中的值进行。数据应该显示每个数据帧(控制组、实验组)中行分布的比较。因此，如果每个数据帧中有6行，那么应该有12个框。两种数据

浏览 7提问于2017-07-17得票数 1

回答已采纳

1回答

将数据帧拆分为特定列的四分位数

我想将一个数据帧拆分为4个数据帧，分别命名为q1、q2、q3和q4，其中q1应包含特定列(例如年龄)在(年龄)分布中最低25%的所有行，q2从25%到50%，q3从50%到75%，q4从75%到100%或者换句话说:我想根据他们的年龄创建4个同等大小的群体。我如何才能用pythonic的方式做到这一点(目前我正在使用循环，但这

浏览 23提问于2020-09-10得票数 0

1回答

主成分分析在PySpark中的应用

、、、、

这些示例似乎只包含Java和Scala。 Spark MLlib是否支持Python的主成分分析？如果是这样，请给我举个例子。如果没有，如何将Spark与scikit-learn结合起来？

浏览 2提问于2015-08-03得票数 10

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝

浏览 16提问于2020-12-30得票数 2

1回答

Pyspark等同于pandas的所有函数

、、、、

我有一个spark数据帧df： A B C D True False True True True NaN NaN False True NaN True True 在pyspark中，有没有一种方法可以根据A，B，C，D行获得第五列，这些行中没有值false，但返回一个int值，或者1表

浏览 22提问于2020-12-16得票数 0

回答已采纳

1回答

利用雅虎云服务基准生成高容量和高速度数据

、、、、

YSCB提供不同类型的工作负载。当前YCSB为卷提供静态值。这些值可以<

浏览 5提问于2016-04-18得票数 2

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("

浏览 11提问于2021-11-19得票数 0

1回答

基于列名的数据帧值转换

、

我们需要根据列的名称更改数据帧的值。例如，在第1行中，列10_1将得到值1，因为10大于"10_1“中的值。但是，第1行中的列2_20将得到值0，因为2在"2_20“中小于20。如何迭代数据帧并根据<e

浏览 4提问于2015-02-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何根据行和列的值更改PySpark数据帧的大小和分布？

相关·内容

如何根据行和列的值更改PySpark数据帧的大小和分布？

windowPartitionBy和pyspark中的重新分区

Pyspark:有没有等同于pandas info()的方法？

有没有办法改变每个分区文件夹的输出行数？

R中的数据帧(产品)相关性

如何将整个pyspark数据帧的大小写更改为下或上

按列比较两个熊猫数据帧的行，并保持较大和。

pyspark.sql.utils.IllegalArgumentException：‘字段’features‘不存在

从PySpark运行大量配置单元查询

要为每行pyspark* dataframe计算多个if elif条件*

在星火中处理大型(局部)矩阵

当表大小是可变的时，如何指定列索引以使用dplyr进行跨行变异？

R中两个数据的盒形图

将数据帧拆分为特定列的四分位数

主成分分析在PySpark中的应用

如何将所有的日期格式转换为日期列的时间戳？

Pyspark等同于pandas的所有函数

利用雅虎云服务基准生成高容量和高速度数据

优化PySpark与pandas DataFrames之间的转换

基于列名的数据帧值转换

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐