向Spark中的数据帧添加带字符串索引的运行数字？

在Apache Spark中，数据帧（DataFrame）是一种分布式数据集合，类似于关系型数据库中的表。向Spark数据帧添加带字符串索引的运行数字可以通过多种方式实现，以下是几种常见的方法：

方法一：使用`monotonically_increasing_id`和`withColumn`

from pyspark.sql import SparkSession
from pyspark.sql.functions import monotonically_increasing_id, concat_ws

# 初始化SparkSession
spark = SparkSession.builder.appName("AddRunningNumber").getOrCreate()

# 创建一个示例数据帧
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

# 添加一个唯一的ID列
df = df.withColumn("id", monotonically_increasing_id())

# 添加带字符串索引的运行数字
df = df.withColumn("RunningNumber", concat_ws("_", df["id"].cast("string")))

# 显示结果
df.show()

方法二：使用窗口函数`row_number`

from pyspark.sql import SparkSession
from pyspark.sql.functions import row_number
from pyspark.sql.window import Window

# 初始化SparkSession
spark = SparkSession.builder.appName("AddRunningNumber").getOrCreate()

# 创建一个示例数据帧
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

# 定义窗口规范
windowSpec = Window.orderBy("Name")

# 添加带字符串索引的运行数字
df = df.withColumn("RunningNumber", concat_ws("_", row_number().over(windowSpec).cast("string")))

# 显示结果
df.show()

方法三：使用`rdd.zipWithIndex`

from pyspark.sql import SparkSession

# 初始化SparkSession
spark = SparkSession.builder.appName("AddRunningNumber").getOrCreate()

# 创建一个示例数据帧
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

# 将数据帧转换为RDD并添加索引
rdd_with_index = df.rdd.zipWithIndex().map(lambda x: (x[1],) + x[0])

# 创建新的数据帧
new_columns = ["RunningNumber"] + df.columns
df_with_index = rdd_with_index.toDF(new_columns)

# 显示结果
df_with_index.show()