文章/答案/技术大牛

发布

社区首页 >问答首页 >按多列对大型数据集进行分组和聚合

问按多列对大型数据集进行分组和聚合
EN

Stack Overflow用户

提问于 2019-04-23 03:35:30

回答 1查看 402关注 0票数 2

我尝试按多列对数据进行分组，然后在其他列中聚合值。虽然我在网上找到了许多这样的例子，但当我尝试将相同的实践应用于我的DataFrame时，我遇到了问题。我认为这可能是由于大小(1.5mm+行)。

我有一个包含名称和地址信息的DataFrame，以及两个'source‘列：

In [45]: df
Out[45]:
   Firstname   Lastname       Address     Zip5   Source_A  Source_B
0      'John'    'Smith'    '1 May St'  '10001'         1         0
1       'Lou'    'Brown'  '2 Perry Ln'  '20983'         0         1
2    'Elaine'    'Brown'  '5 Park Ave'  '34785'         1         0
3      'John'    'Smith'    '1 May St'  '10001'         0         1

我希望对具有相似名称和地址信息的行进行分组，然后使用max()函数聚合“源”列。我的代码如下：

In [43]: grouped = df.groupby(['Firstname', 'Lastname', 'Address', 'Zip5'], as_index = False, sort = False)

In [44]: grouped.max()
Out[44]:
   Firstname   Lastname       Address     Zip5   Source_A  Source_B
0      'John'    'Smith'    '1 May St'  '10001'         1         1
1       'Lou'    'Brown'  '2 Perry Ln'  '20983'         0         1
2    'Elaine'    'Brown'  '5 Park Ave'  '34785'         1         0

这个输出正是我想要的--本质上，在['Firstname', 'Lastname', 'Address', 'Zip5']上对行进行了重复数据消除，Source_A和Source_B采用了原始数据帧中的最大值。

然而，虽然这适用于较小的DataFrames，但代码无法完成对非常大的数据集(1.5 on行)的运行。大约45分钟前，我在一个大型数据集上运行了这段代码，但它尚未完成。有没有更有效的方法来做到这一点？我也很好奇，为什么简单地用df.duplicated(['Firstname', 'Lastname', 'Address', 'Zip5'], keep = 'last')识别重复项的速度非常快，而groupby却很难做到。

python

python-3.x

pandas

numpy

pandas-groupby

回答 1

Stack Overflow用户

发布于 2019-04-23 06:05:43

我不知道这是否会更快，因为我不知道是pivot_table还是melt，还是两者的组合都比使用groupby更快，但这里有一个替代解决方案

我使用melt函数将Source_A和Source_B中的值堆叠到一列中

df_melt=pd.melt(df,id_vars=['Firstname','Lastname','Address','Zip5'],value_vars=['Source_A','Source_B'])

然后将数据透视表应用于结果。

df_pivot=df_melt.pivot_table(index=['Firstname','Lastname','Address','Zip5'],columns='variable',aggfunc='max').reset_index()

希望它能帮上忙！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55800096

复制

相似问题

问按多列对大型数据集进行分组和聚合
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按多列对大型数据集进行分组和聚合EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按多列对大型数据集进行分组和聚合
EN