我有一个每年电影收视率的数据集。当我执行spark.sql("select max(imdb_score), title_year from movie_metadata group by title_year”)时,我得到了正确的结果当我使用movie_title作为最后一个或第一个执行spark.sql("select last(movie_title), max(imdb_score), t
我正在尝试找出在Spark dataframe列中获得最大值的最佳方法。使用PySpark,以下是我能想到的四种方法:float(df.describe("A").filter("summary = 'max'").selectMAX(A) as maxval FROM df_table").first().asDict()[&
这个想法是使用枢轴来“打开”(用熊猫的话来说)这个数据集,并且为每个IndicatorCode都有一列。[row.IndicatorCode2 for row in data2.select("IndicatorCode2").distinct().collect()]
.pivot("IndicatorCode2", columns)\