我尝试按多列对数据进行分组,然后在其他列中聚合值。虽然我在网上找到了许多这样的例子,但当我尝试将相同的实践应用于我的DataFrame时,我遇到了问题。我认为这可能是由于大小(1.5mm+行)。
我有一个包含名称和地址信息的DataFrame,以及两个'source‘列:
In [45]: df
Out[45]:
Firstname Lastname Address Zip5 Source_A Source_B
0 'John' 'Smith' '1 May St' '10001' 1 0
1 'Lou' 'Brown' '2 Perry Ln' '20983' 0 1
2 'Elaine' 'Brown' '5 Park Ave' '34785' 1 0
3 'John' 'Smith' '1 May St' '10001' 0 1我希望对具有相似名称和地址信息的行进行分组,然后使用max()函数聚合“源”列。我的代码如下:
In [43]: grouped = df.groupby(['Firstname', 'Lastname', 'Address', 'Zip5'], as_index = False, sort = False)
In [44]: grouped.max()
Out[44]:
Firstname Lastname Address Zip5 Source_A Source_B
0 'John' 'Smith' '1 May St' '10001' 1 1
1 'Lou' 'Brown' '2 Perry Ln' '20983' 0 1
2 'Elaine' 'Brown' '5 Park Ave' '34785' 1 0这个输出正是我想要的--本质上,在['Firstname', 'Lastname', 'Address', 'Zip5']上对行进行了重复数据消除,Source_A和Source_B采用了原始数据帧中的最大值。
然而,虽然这适用于较小的DataFrames,但代码无法完成对非常大的数据集(1.5 on行)的运行。大约45分钟前,我在一个大型数据集上运行了这段代码,但它尚未完成。有没有更有效的方法来做到这一点?我也很好奇,为什么简单地用df.duplicated(['Firstname', 'Lastname', 'Address', 'Zip5'], keep = 'last')识别重复项的速度非常快,而groupby却很难做到。
发布于 2019-04-23 06:05:43
我不知道这是否会更快,因为我不知道是pivot_table还是melt,还是两者的组合都比使用groupby更快,但这里有一个替代解决方案
我使用melt函数将Source_A和Source_B中的值堆叠到一列中
df_melt=pd.melt(df,id_vars=['Firstname','Lastname','Address','Zip5'],value_vars=['Source_A','Source_B'])然后将数据透视表应用于结果。
df_pivot=df_melt.pivot_table(index=['Firstname','Lastname','Address','Zip5'],columns='variable',aggfunc='max').reset_index()希望它能帮上忙!
https://stackoverflow.com/questions/55800096
复制相似问题