首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >pyspark在groupBy之后使用agg连接字符串

pyspark在groupBy之后使用agg连接字符串
EN

Stack Overflow用户
提问于 2020-07-01 03:16:47
回答 1查看 370关注 0票数 1

在pandas数据帧中,我能够做到

代码语言:javascript
运行
复制
df2 = df.groupBy('name').agg({'id': 'first', 'grocery': ','.join})

从…

代码语言:javascript
运行
复制
name        id        grocery
Mike        01        Apple
Mike        01        Orange
Kate        99        Beef
Kate        99        Wine

代码语言:javascript
运行
复制
name        id        grocery
Mike        01        Apple,Orange
Kate        99        Beef,Wine

因为同一个人的多行id是相同的,所以我只取每个人的第一个id,然后连接杂货店。

我似乎不能让这个在pyspark中工作。我怎么能在pyspark中做同样的事情呢?我希望杂货店是串的而不是列表

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-01 03:32:44

使用collect_list将元素收集到列表中,然后使用concat_ws将列表作为字符串连接起来

代码语言:javascript
运行
复制
import pyspark.sql.functions as f

df.groupBy("name")
  .agg(
      f.first("id").alias("id"), 
      f.concat_ws(",", f.collect_list("grocery")).alias("grocery")
   ).show()

#+----+---+------------+
#|name| id|     grocery|
#+----+---+------------+
#|Kate| 99|   Beef,Wine|
#|Mike| 01|Apple,Orange|
#+----+---+------------+
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62664691

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档