我在pyspark dataframe中有一个count列,如下所示:
id Count Percent
a 3 50
b 3 50
我想要一个结果数据帧为:
id Count Percent CCount CPercent
a 3 50 3 50
b 3 50 6 100
我不能使用熊猫数据帧,因为数据库太大了。我找到了指向窗口分区的答案,但我没有这样的列作为分区依据。请大家用pyspark dataframe告诉我怎么做。注意: pysp
我正在寻找等同于pandas数据帧的pyspark。特别是,我想对pyspark dataframe执行以下操作
# in pandas dataframe, I can do the following operation
# assuming df = pandas dataframe
index = df['column_A'] > 0.0
amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C'])
/ sum(df.loc[index, &
我有一个由100多个列组成的数据框架。我想要做的是,对于所有的列名,我想在列名的开头和列名的末尾添加回滴答(`)。
例如:
column name is testing user. I want `testing user`
有没有一种方法可以在pyspark/python中做到这一点。当我们应用代码时,它应该返回一个数据帧。