pyspark是否支持窗口函数(例如first, last, lag, lead)?
例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
假设我们有一个包含两列的PySpark数据帧: ID (它是唯一的)和VALUE。 我需要添加第三列,它始终包含相同的值,即列值的最大值。我观察到,在这种情况下,按ID分组没有任何意义,因为我需要一个全局最大值。 这听起来很简单,可能是这样的,但我只看到了涉及分组的解决方案,这并不适合我的情况。我试了很多方法,但都不管用。我需要一个解决方案只在PySpark/Python代码。非常感谢!