我是皮斯卡姆·努布。我有一个如下所示的数据集(有数千个不同的起始I和终端I):
startID, endID
1 1
1 2
1 3
2 3
1 1
...我需要将计数到startID和endID组合在一起的所有时间(行),并得到如下内容:
startID endID count
1 1 2
1 2 1
...发布于 2020-10-04 16:15:10
这里不需要.agg()。简单地说:
df.groupBy('startID', 'endID').count().show()
发布于 2020-10-04 03:03:28
分组计数。
from pyspark.sql.functions import *
df.groupBy('startID', 'endID').agg(count(lit(1)).alias('count'))
.show()https://stackoverflow.com/questions/64190673
复制相似问题