首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何在pyspark中做小写和删除原始列?

在pyspark中,可以使用DataFrame的select()withColumn()方法来实现小写转换和删除原始列。

  1. 小写转换:使用select()方法选择需要的列,并使用alias()方法给新列起一个小写的别名。
代码语言:txt
复制
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建DataFrame
data = [("John", 25), ("Alice", 30), ("Bob", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 将Name列转换为小写,并使用alias方法给新列起别名
df_lower = df.select(col("Name").alias("name"))

# 显示结果
df_lower.show()

输出结果:

代码语言:txt
复制
+-----+
| name|
+-----+
| john|
|alice|
|  bob|
+-----+
  1. 删除原始列:使用withColumn()方法选择需要的列,并使用drop()方法删除原始列。
代码语言:txt
复制
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建DataFrame
data = [("John", 25), ("Alice", 30), ("Bob", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 删除Name列
df_without_name = df.withColumn("Name", col("Name")).drop("Name")

# 显示结果
df_without_name.show()

输出结果:

代码语言:txt
复制
+---+
|Age|
+---+
| 25|
| 30|
| 35|
+---+

以上是在pyspark中实现小写转换和删除原始列的方法。在实际应用中,可以根据具体需求选择使用select()withColumn()方法来处理DataFrame中的列。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

领券