我正在寻找一种在PySpark中选择数据帧列的方法。对于第一行,我知道我可以使用df.first()
,但不确定列,因为它们没有列名。
我有5列,我想遍历每一列。
+--+---+---+---+---+---+---+
|_1| _2| _3| _4| _5| _6| _7|
+--+---+---+---+---+---+---+
|1 |0.0|0.0|0.0|1.0|0.0|0.0|
|2 |1.0|0.0|0.0|0.0|0.0|0.0|
|3 |0.0|0.0|1.0|0.0|0.0|0.0|
发布于 2017-10-18 23:14:54
尝试如下所示:
df.select([c for c in df.columns if c in ['_2','_4','_5']]).show()
发布于 2018-03-30 05:14:26
前两列和前5行
df.select(df.columns[:2]).take(5)
发布于 2019-08-14 20:41:53
您可以使用一个数组,并在select中将其解包:
cols = ['_2','_4','_5']
df.select(*cols).show()
https://stackoverflow.com/questions/46813283
复制相似问题