如何从pySpark中的变量中选择数据框中的列

在pySpark中，可以使用select()方法从数据框中选择特定的列。select()方法接受一个或多个列名作为参数，并返回一个新的数据框，其中只包含选定的列。

以下是从pySpark中的变量中选择数据框中的列的步骤：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

data = [("Alice", 25, "Female"), ("Bob", 30, "Male"), ("Charlie", 35, "Male")]
df = spark.createDataFrame(data, ["Name", "Age", "Gender"])

selected_columns = ["Name", "Age"]
selected_df = df.select(*selected_columns)

在上述代码中，我们定义了一个包含姓名、年龄和性别的数据框。然后，我们使用select()方法选择了"Name"和"Age"这两列，并将结果存储在selected_df变量中。*selected_columns用于将列名作为参数传递给select()方法。

选择列后，你可以对selected_df执行其他操作，如应用过滤器、聚合函数等。

腾讯云相关产品和产品介绍链接地址：

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云