我需要帮助在pyspark数据帧主题。我有一个数据框架,比如1000+列和100000+ rows.Also,我有10000+ if elif条件,在每个if else条件下,只有很少的全局变量被一些值递增。现在我的问题是,我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数,它们根据条件返回行,我需要检查这些10000+ i
我想从分组的Spark数据帧中计算一列中有多少条记录是真的,但我不知道如何在python中做到这一点。例如,我有一个包含region、salary和IsUnemployed列的数据,其中IsUnemployed是一个布尔值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter,然后再做groupby,但是我想同时生成两个聚合,如下所示
from pyspark.sql