首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >选择PySpark数据框中的列

选择PySpark数据框中的列
EN

Stack Overflow用户
提问于 2017-10-18 22:59:15
回答 6查看 151.5K关注 0票数 36

我正在寻找一种在PySpark中选择数据帧列的方法。对于第一行,我知道我可以使用df.first(),但不确定列,因为它们没有列名。

我有5列,我想遍历每一列。

+--+---+---+---+---+---+---+
|_1| _2| _3| _4| _5| _6| _7|
+--+---+---+---+---+---+---+
|1 |0.0|0.0|0.0|1.0|0.0|0.0|
|2 |1.0|0.0|0.0|0.0|0.0|0.0|
|3 |0.0|0.0|1.0|0.0|0.0|0.0|
EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2017-10-18 23:14:54

尝试如下所示:

df.select([c for c in df.columns if c in ['_2','_4','_5']]).show()
票数 67
EN

Stack Overflow用户

发布于 2018-03-30 05:14:26

前两列和前5行

 df.select(df.columns[:2]).take(5)
票数 33
EN

Stack Overflow用户

发布于 2019-08-14 20:41:53

您可以使用一个数组,并在select中将其解包:

cols = ['_2','_4','_5']
df.select(*cols).show()
票数 25
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46813283

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档