如何在PySpark DataFrame中将列转置为行？

在PySpark中，可以使用pivot函数将列转置为行。pivot函数用于将DataFrame中的一列作为新的列名，并将另一列的值作为新列的值。以下是在PySpark DataFrame中将列转置为行的步骤：

导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, expr

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建示例DataFrame：

data = [("Alice", 25, 100),
        ("Bob", 30, 200),
        ("Charlie", 35, 300)]
df = spark.createDataFrame(data, ["Name", "Age", "Salary"])
df.show()

输出：

+-------+---+------+
|   Name|Age|Salary|
+-------+---+------+
|  Alice| 25|   100|
|    Bob| 30|   200|
|Charlie| 35|   300|
+-------+---+------+

使用pivot函数将列转置为行：

pivoted_df = df.select("Name", expr("stack(2, 'Age', Age, 'Salary', Salary) as (Attribute, Value)")) \
               .groupBy("Name") \
               .pivot("Attribute") \
               .agg(expr("coalesce(first(Value), 0)"))
pivoted_df.show()

输出：

+-------+---+------+
|   Name|Age|Salary|
+-------+---+------+
|  Alice| 25|   100|
|    Bob| 30|   200|
|Charlie| 35|   300|
+-------+---+------+

在上述代码中，我们首先使用select函数创建一个新的DataFrame，其中包含两列：Name和Attribute。Attribute列使用stack函数将Age和Salary列转换为行，并将其命名为Value。然后，我们使用groupBy函数按Name列分组，并使用pivot函数将Attribute列转换为新的列。最后，我们使用agg函数和coalesce函数将每个新列的第一个非空值作为最终结果。

这是一个简单的示例，你可以根据实际需求调整代码。关于PySpark的更多信息和示例，请参考腾讯云的PySpark文档。

页面内容是否对你有帮助？

有帮助

没帮助

如何在PySpark DataFrame中将列转置为行？

、、、

--+| 2 | d | e | f || id | key | value|| 1 | val1 | a | |

浏览 51提问于2021-04-15得票数 1

2回答

在pyspark中将行转置为列

我有dataframe track_log，其中列是------------------------------------------------------------------需要使用pyspark

浏览 0提问于2019-07-27得票数 0

3回答

PySpark:如何转置数据帧中的多个列

、、、、

我是Spark的新手，需要使用PySpark或Spark Sql将以下输入数据帧转置为所需的输出df (从行到列)的帮助。所需的输出(转置)数据......如果我可以根据我们的要求旋转输入数据(列)，那就更好了。

浏览 1提问于2020-11-27得票数 3

2回答

在Spark SQL中将行转置为列(pyspark)

、、

任何关于如何将行转换为列的想法都会很有帮助。

浏览 0提问于2017-10-25得票数 1

2回答

如何在没有透视表的mysql查询中将行转换为列

、、

如何在没有透视的mysql查询中将行转换为列。我有一个表模式，比如ID SchoolName *********************** 我想把这个转置为

浏览 2提问于2013-08-23得票数 0

3回答

如何在没有索引的情况下在pandas中转置数据帧？

、、

文件并拥有数据帧：a 1 4 7c 3 6 9 我想做一个转置来得到

浏览 4提问于2017-02-22得票数 52

回答已采纳

2回答

通过在行中选择日期时间值来转置Pandas DataFrame

、

我有一个简单的Pandas DataFrame，看起来像这样：2017-01-03 00:00:00 13.05...2017-01-27 09:58:00 13.43如何将其转置为每天只有一行，以及特定小时和分钟的列(例如，从0到10小时)(时间戳中没有秒，它们都

浏览 1提问于2017-02-01得票数 1

回答已采纳

1回答

在OpenRefine中将列转置为行，将行转置为列

、、

转换单元格和行的简单新手问题，但无法解决:我下载了WDI数据，其中年份是列，国家和指标是行(图1)。我知道如何将年份转置为行(图2)，但如何也将指标作为列发送，使其看起来像第三张图像？

浏览 1提问于2021-06-03得票数 0

2回答

在PySpark中将Spark DataFrame从行转置到列，并将其附加到另一个DataFrame

、、、、

我在PySpark avg_length_df有个Spark DataFrame看起来像-+----------------+---------+----------+-----------+---------+-------------+----------+| 9.0|| 5.047|

浏览 13提问于2019-10-24得票数 3

1回答

将每条记录转置到pyspark dataframe中的多个列中

、、

假设我们有一个类似以下3列的数据框架 timestamp bin cnt1 1548453780 0.3 5 2 1548453780我尝试过pandas：df.groupby(['timestamp','bin']).sum()中的各种groupby和pivot_table，但是bin列并不像下面的例子那样出现在顶部。

浏览 12提问于2019-01-26得票数 2

回答已采纳

点击加载更多