我有一个PySpark Dataframe和一个A字段,很少有依赖于A (A->B)和C字段的B字段,例如,我希望每个A都聚合这些字段:----------A预期结果将是:----------B | 2 | 12SELECT A, COALESCE(B) as B, SUM(C) asCGROUP BY A
PySpark是如何做到这一点的?我可以将A和B组合在一起,或者为每个A选择
我正在运行pyspark脚本,其中我正在运行sql查询和创建数据帧。在sql query中有dense_rank()函数。由于此查询需要花费太多时间才能完全执行。有没有什么方法可以快速执行查询,或者我们可以在pyspark级别处理这个问题?在pyspark中有没有什么函数或方法可以替代sql中的dense_rank()?SQL: SELECT DENSE_RANK() OVER(ORDER BY SOURCE_COLUMN_VALUE) AS SYS