pyspark是否支持窗口函数(例如first, last, lag, lead)?
例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
我正在尝试将此SQL查询转换为PySpark DataFrame方法:OVER (PARTITION BYid_profile ORDER BY prediction DESC) AS rank FROM predictions
因此,id_profile、indications和prediction是我的
我正在运行pyspark脚本,其中我正在运行sql查询和创建数据帧。在sql query中有dense_rank()函数。由于此查询需要花费太多时间才能完全执行。有没有什么方法可以快速执行查询,或者我们可以在pyspark级别处理这个问题?在pyspark中有没有什么函数或方法可以替代sql中的dense_rank()?SQL: SELECT DENSE_RANK() OVER(ORDER BY SOURCE_COLUMN_VALUE) AS SYSTEM_ID,SYSTEM_TABL