我对pyspark上的CountDistinct有点问题。我有两个连接表,我想要显示这两个不同表的不同键值的数量。(ppp.select(["T1_"+c for c in impacted_columns.key1.split("-")]))
pluc=F.countDistinct(plu.select(["T2_"
我有一个PySpark数据框架,我想按几列分组,然后计算一些列的总和,并计算另一列的不同值。因为countDistinct不是一个内置的聚合函数,所以我不能使用我在这里尝试过的简单表达式: sum_cols = ['a', 'b']exprs1 = {x: "sum" for x in sum_cols}
exprs2 = {x:
John 2 415 54 John 3 33 10 John 4 82 82
是否可以根据名称列(作为索引)将表拆分为两个表,并将这两个表嵌套在同一个对象下(不确定要使用的确切术语)。因此,在上面的示例中,表将是:name day earnings revenue Oliver 1 100 44 Oliver 2 200 69