首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >火星雨。根据多列中的值生成列表

火星雨。根据多列中的值生成列表
EN

Stack Overflow用户
提问于 2021-10-01 14:11:55
回答 1查看 316关注 0票数 1

我刚开始使用火种,但我做了一些研究,似乎找不到解决我的问题的答案。我有一个dataframe,在streetID中可以有重复的条目。我需要基于houseNums创建一个(排序)列表。

代码语言:javascript
运行
复制
+---------+---------+
|streetID |houseNum |
+---------+---------+
|      890|    12445|
|      400|    35840|
|      890|    28980|
|      639|    35840|
|      639|    12445|
+---------+---------+

希望结果会是这样。我需要一个UDF来解决这个问题,还是在构建的API中可以解决这个问题?有什么建议吗?

代码语言:javascript
运行
复制
+---------+--------------------+
|streetID |houseNumList        |
+---------+--------------------+
|      400|    [35840]         |
|      890|    [12445, 28980]  |
|      639|    [12445, 35840]  |
+---------+--------------------+
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-10-01 14:19:18

您可以使用collect_list返回带有重复项的对象列表。

代码语言:javascript
运行
复制
from pyspark.sql import functions as F

(df.groupBy("streetID")\
   .agg(F.collect_set("houseNum").alias('houseNumList')).show()

要将每个元素按列表sort顺序排列,可以包含函数sort_array

代码语言:javascript
运行
复制
(df.groupBy("streetID")\
   .agg(F.sort_array(F.collect_set("houseNum").alias('houseNumList')).show()

这将使您的数字在列表中按升序排列。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69407332

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档