文章/答案/技术大牛

发布

社区首页 >问答首页 >pyspark在groupBy之后使用agg连接字符串

问pyspark在groupBy之后使用agg连接字符串
EN

Stack Overflow用户

提问于 2020-07-01 03:16:47

回答 1查看 370关注 0票数 1

在pandas数据帧中，我能够做到

df2 = df.groupBy('name').agg({'id': 'first', 'grocery': ','.join})

从…

name        id        grocery
Mike        01        Apple
Mike        01        Orange
Kate        99        Beef
Kate        99        Wine

至

name        id        grocery
Mike        01        Apple,Orange
Kate        99        Beef,Wine

因为同一个人的多行id是相同的，所以我只取每个人的第一个id，然后连接杂货店。

我似乎不能让这个在pyspark中工作。我怎么能在pyspark中做同样的事情呢？我希望杂货店是串的而不是列表

python

apache-spark

pyspark

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-01 03:32:44

使用collect_list将元素收集到列表中，然后使用concat_ws将列表作为字符串连接起来

import pyspark.sql.functions as f

df.groupBy("name")
  .agg(
      f.first("id").alias("id"), 
      f.concat_ws(",", f.collect_list("grocery")).alias("grocery")
   ).show()

#+----+---+------------+
#|name| id|     grocery|
#+----+---+------------+
#|Kate| 99|   Beef,Wine|
#|Mike| 01|Apple,Orange|
#+----+---+------------+

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62664691

复制

相似问题

问pyspark在groupBy之后使用agg连接字符串
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pyspark在groupBy之后使用agg连接字符串EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pyspark在groupBy之后使用agg连接字符串
EN