Pyspark SelectExp()对first()和last()无效

Pyspark的SelectExpr()方法是用于选择和转换DataFrame中的列的函数。它可以接受一个或多个表达式作为参数，并将这些表达式的计算结果作为新列添加到DataFrame中。

对于Pyspark的SelectExpr()方法，它并不直接支持first()和last()函数作为表达式。first()函数用于获取DataFrame中某一列的第一个非空值，而last()函数用于获取DataFrame中某一列的最后一个非空值。

要实现类似的功能，可以使用Pyspark的orderBy()方法结合limit()方法来实现。orderBy()方法可以对DataFrame的列进行排序，而limit()方法可以限制返回的行数。通过将DataFrame按特定列排序并限制返回结果的行数为1，可以实现类似first()和last()函数的功能。

下面是一个示例代码，演示如何使用orderBy()和limit()来实现类似first()和last()的功能：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建一个示例DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 使用orderBy()和limit()方法来获取第一行和最后一行
first_row = df.orderBy("Name").limit(1)
last_row = df.orderBy("Name", ascending=False).limit(1)

# 打印结果
first_row.show()
last_row.show()

此示例中，我们通过orderBy("Name")方法对DataFrame按照Name列进行升序排序，并使用limit(1)方法限制返回结果的行数为1，从而获取第一行数据。对于获取最后一行数据，我们使用orderBy("Name", ascending=False)方法对DataFrame按照Name列进行降序排序，并同样使用limit(1)方法限制返回结果的行数为1。

需要注意的是，Pyspark的SelectExpr()方法在这个问题中并不是直接解决方案，因为它不支持first()和last()函数作为表达式。但我们可以利用Pyspark的其他方法来达到类似的效果。