如何在PySpark DataFrame中将列转置为行？

在PySpark中，可以使用pivot函数将列转置为行。pivot函数用于将DataFrame中的一列作为新的列名，并将另一列的值作为新列的值。以下是在PySpark DataFrame中将列转置为行的步骤：

导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, expr

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建示例DataFrame：

data = [("Alice", 25, 100),
        ("Bob", 30, 200),
        ("Charlie", 35, 300)]
df = spark.createDataFrame(data, ["Name", "Age", "Salary"])
df.show()

输出：

+-------+---+------+
|   Name|Age|Salary|
+-------+---+------+
|  Alice| 25|   100|
|    Bob| 30|   200|
|Charlie| 35|   300|
+-------+---+------+

使用pivot函数将列转置为行：

pivoted_df = df.select("Name", expr("stack(2, 'Age', Age, 'Salary', Salary) as (Attribute, Value)")) \
               .groupBy("Name") \
               .pivot("Attribute") \
               .agg(expr("coalesce(first(Value), 0)"))
pivoted_df.show()

输出：

+-------+---+------+
|   Name|Age|Salary|
+-------+---+------+
|  Alice| 25|   100|
|    Bob| 30|   200|
|Charlie| 35|   300|
+-------+---+------+

在上述代码中，我们首先使用select函数创建一个新的DataFrame，其中包含两列：Name和Attribute。Attribute列使用stack函数将Age和Salary列转换为行，并将其命名为Value。然后，我们使用groupBy函数按Name列分组，并使用pivot函数将Attribute列转换为新的列。最后，我们使用agg函数和coalesce函数将每个新列的第一个非空值作为最终结果。