>>> a
DataFrame[id: bigint, julian_date: string, user_id: bigint]
>>> b
DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
>>> a.join(b, a.id==b.id, 'outer')
DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
有两个id: bigint
,我想删除一个。我该怎么做呢?
发布于 2018-05-23 23:56:22
除了@Patrick的答案之外,您还可以使用以下命令删除多个列
columns_to_drop = ['id', 'id_copy']
df = df.drop(*columns_to_drop)
发布于 2016-03-11 07:26:28
要做到这一点,一种简单的方法是使用"select
“,并意识到您可以使用df.columns
获取dataframe
的所有columns
df
的列表
drop_list = ['a column', 'another column', ...]
df.select([column for column in df.columns if column not in drop_list])
发布于 2018-08-27 17:35:50
您可以使用两种方式:
1:你只需要保留必要的列:
drop_column_list = ["drop_column"]
df = df.select([column for column in df.columns if column not in drop_column_list])
他说:这是更优雅的方式。
df = df.drop("col_name")
您应该避免collect()版本,因为它会将完整的数据集发送到主服务器,这将需要大量的计算工作!
https://stackoverflow.com/questions/29600673
复制相似问题