文章/答案/技术大牛

发布

社区首页 >问答首页 >不带groupby的计数和非重复计数使用PySpark

问不带groupby的计数和非重复计数使用PySpark
EN

Stack Overflow用户

提问于 2018-06-05 05:26:06

回答 1查看 2.3K关注 0票数 0

我有一个数据帧(testdf)，希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。

testdf

memid   booking  rental
100        Y 
100
120        Y
100        Y       Y

预期结果：(对于预订列不为空/非空)

count(memid)  count(distinct memid)
      3                      2

如果是SQL：

Select count(memid), count(distinct memid) from mydf 
where booking is not null and booking!= ""

在PySpark中：

mydf.filter("booking!=''").groupBy('booking').agg(count("patid"), countDistinct("patid"))

但我只想要总体计数，而不是按..

python

pyspark

pyspark-sql

回答 1

Stack Overflow用户

发布于 2018-09-07 16:57:40

您可以直接删除GroupBy并使用agg。

就像这样。

from pyspark.sql import functions as F 
mydf=mydf.filter("booking!=''").agg(F.count("patid"), F.countDistinct("patid"))

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50689005

复制

相似问题

问不带groupby的计数和非重复计数使用PySpark
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不带groupby的计数和非重复计数使用PySparkEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不带groupby的计数和非重复计数使用PySpark
EN