我正在尝试使用mean作为字典变量来执行的均值。from pyspark.sql import functions as Fdf.groupby('name').'AttributeError GroupedData object has no attribute _func'
我也尝试过从GroupedData类导入pyspark.sql.group类的均值函数,但同样<em
这是我的数据集, Out[75]:
|customer_id| name|spDF.groupBy('name').pivot('name', values=None)<pyspark.sql.group.GroupedData at 0x7f0ad03750f094354082e956> in <module>(
给定一个pyspark.sql.dataframe.DataFrame x:name day earnings revenue Oliver 1 100 44 Oliver54 John 3 33 10 John 4 82 82
是否可以根据名称列(作为索引)将表拆分为两个表,并将这两个表嵌套在同一个对象下11 John 2 415 54 John 3 33 10 John 4 82
在Pyspark中,我需要按ID分组并创建四个新列(min,max,std,ave)。from pyspark.sql import functions as F
w = (Window.orderBy(F.coldf.groupby("ID").select('rpm', f.avg('rpm').over(w).alias('hr1_avg')) 但是,对于这两个命令,我都得到了这