文章/答案/技术大牛

发布

社区首页 >问答首页 >找到具有列值的公共行对

问找到具有列值的公共行对
EN

Stack Overflow用户

提问于 2020-10-04 02:32:42

回答 2查看 509关注 0票数 1

我是皮斯卡姆·努布。我有一个如下所示的数据集(有数千个不同的起始I和终端I)：

startID,  endID
1         1
1         2
1         3
2         3
1         1
...

我需要将计数到startID和endID组合在一起的所有时间(行)，并得到如下内容：

startID   endID  count
1         1      2
1         2      1
...

pyspark

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-10-04 16:15:10

这里不需要.agg()。简单地说：

df.groupBy('startID', 'endID').count().show()

票数 2

Stack Overflow用户

发布于 2020-10-04 03:03:28

分组计数。

from pyspark.sql.functions import *

df.groupBy('startID', 'endID').agg(count(lit(1)).alias('count'))
  .show()

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64190673

复制

相似问题

问找到具有列值的公共行对
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问找到具有列值的公共行对EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问找到具有列值的公共行对
EN