在pyspark中创建一个包含两列的DataFrame,其中一列是字符串,另一列是数组,可以按照以下步骤进行操作:
from pyspark.sql import SparkSession
from pyspark.sql.types import StringType, ArrayType
from pyspark.sql.functions import col
spark = SparkSession.builder.getOrCreate()
data = [("John", ["apple", "banana", "orange"]),
("Alice", ["grape", "melon"]),
("Bob", ["pineapple"])]
df = spark.createDataFrame(data, ["name", "fruits"])
select
函数选择特定的列:df = df.select(col("name"), col("fruits"))
show
函数查看创建的DataFrame:df.show()
这样就在pyspark中成功创建了一个包含两列的DataFrame,其中一列是字符串,另一列是数组。
关于pyspark的更多信息和使用方法,可以参考腾讯云的相关产品和文档:
请注意,以上答案仅供参考,具体实现可能因环境和需求而异。
领取专属 10元无门槛券
手把手带您无忧上云