在使用pyspark dataframe时,可以使用where子句来从数据框中获取特定的值。where子句用于筛选满足特定条件的行。
下面是使用where子句从一个pyspark dataframe获取值的步骤:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.getOrCreate()
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
filtered_df = df.where(col("Age") > 30)
在上述代码中,我们使用了col函数来引用数据框中的列,并使用where子句筛选出年龄大于30的行。筛选后的结果存储在filtered_df数据框中。
filtered_df.show()
这将打印出满足条件的行。
使用where子句从pyspark dataframe获取值的优势是可以根据特定的条件灵活地筛选数据,以满足不同的需求。
应用场景:
推荐的腾讯云相关产品和产品介绍链接地址:
没有搜到相关的沙龙
领取专属 10元无门槛券
手把手带您无忧上云