创建具有任意数量的子句的PySpark .when()语句

PySpark是一种用于大规模数据处理的Python库，它提供了对Apache Spark的API访问。在PySpark中，.when()语句用于根据条件创建一个列表达式。它可以与其他函数一起使用，例如.when().otherwise()，以实现复杂的条件逻辑。

具体来说，.when()语句的语法如下：

pyspark.sql.functions.when(condition, value)

其中，condition是一个布尔表达式，用于指定条件。如果条件为真，则返回value；否则返回null。value可以是一个常量值、列名或表达式。

使用.when()语句可以实现多个子句的条件判断。例如，我们可以根据不同的条件返回不同的值，或者根据条件对列进行分类。

下面是一个示例：

from pyspark.sql import SparkSession
from pyspark.sql.functions import when

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 使用.when()语句创建一个新列"category"，根据年龄进行分类
df = df.withColumn("category", when(df.age < 30, "Young").when(df.age < 40, "Middle-aged").otherwise("Old"))

# 显示结果
df.show()

输出结果如下：

+-------+---+------------+
|   name|age|    category|
+-------+---+------------+
|  Alice| 25|       Young|
|    Bob| 30|Middle-aged|
|Charlie| 35|Middle-aged|
+-------+---+------------+

在这个例子中，我们根据不同的年龄范围将人员分类为"Young"、"Middle-aged"和"Old"三个类别，并将结果存储在新的列"category"中。

对于PySpark中.when()语句的更多信息和用法，可以参考腾讯云的PySpark文档：PySpark文档。