我有一个PySpark数据框架,我想按几列分组,然后计算一些列的总和,并计算另一列的不同值。因为countDistinct不是一个内置的聚合函数,所以我不能使用我在这里尝试过的简单表达式: sum_cols = ['a', 'b']
count_cols = ['id']
exprs1 = {x: "sum" for x in sum_cols}
exprs2 = {x: "countDistinct" for x in count_cols}
exprs = {**exprs1, **exprs2}
df_a