首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >不带groupby的计数和非重复计数使用PySpark

不带groupby的计数和非重复计数使用PySpark
EN

Stack Overflow用户
提问于 2018-06-05 05:26:06
回答 1查看 2.3K关注 0票数 0

我有一个数据帧(testdf),希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。

testdf

代码语言:javascript
运行
复制
memid   booking  rental
100        Y 
100
120        Y
100        Y       Y

预期结果:(对于预订列不为空/非空)

代码语言:javascript
运行
复制
count(memid)  count(distinct memid)
      3                      2

如果是SQL:

代码语言:javascript
运行
复制
Select count(memid), count(distinct memid) from mydf 
where booking is not null and booking!= ""

在PySpark中:

代码语言:javascript
运行
复制
mydf.filter("booking!=''").groupBy('booking').agg(count("patid"), countDistinct("patid"))

但我只想要总体计数,而不是按..

EN

回答 1

Stack Overflow用户

发布于 2018-09-07 16:57:40

您可以直接删除GroupBy并使用agg

就像这样。

代码语言:javascript
运行
复制
from pyspark.sql import functions as F 
mydf=mydf.filter("booking!=''").agg(F.count("patid"), F.countDistinct("patid"))
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50689005

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档