,可以通过以下步骤实现:
from pyspark.sql import SparkSession
from pyspark.sql.functions import when
spark = SparkSession.builder.getOrCreate()
df = spark.read.csv("data.csv", header=True, inferSchema=True)
这里假设数据保存在名为"data.csv"的CSV文件中,且包含表头。
when
函数结合条件表达式来实现:df = df.withColumn("status", when(df["age"] < 18, "未成年").otherwise("成年"))
以上代码将根据"age"列的值,如果小于18,则将"status"列设置为"未成年",否则设置为"成年"。
df.show()
这将显示包含新添加的"status"列的数据帧。
在这个过程中,我们没有提及云计算相关的内容,因为根据提供的问答内容,没有明确要求与云计算相关。
领取专属 10元无门槛券
手把手带您无忧上云