问Python -基于两列组合删除数据框中的重复项？
EN

Stack Overflow用户

提问于 2018-07-05 09:10:40

回答 2查看 6.5K关注 0票数 20

我有一个Python中包含3列的dataframe：

Name1 Name2 Value
Juan  Ale   1
Ale   Juan  1

并且希望消除基于列Name1和Name2组合的重复项。

在我的示例中，两行相等(但它们的顺序不同)，我想删除第二行，只保留第一行，因此最终结果应该是：

Name1 Name2 Value
Juan  Ale   1

任何想法都会非常感谢！

python

pandas

sorting

dataframe

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-05 09:16:07

您可以转换为frozenset并使用pd.DataFrame.duplicated。

res = df[~df[['Name1', 'Name2']].apply(frozenset, axis=1).duplicated()]

print(res)

  Name1 Name2  Value
0  Juan   Ale      1

frozenset是必需的，而不是set，因为duplicated使用散列来检查重复项。

与行相比，列的伸缩性更好。对于大量的行，使用@Wen的基于排序的算法。

票数 22

Stack Overflow用户

发布于 2018-07-05 09:49:23

通过在duplicated中使用np.sort

df[pd.DataFrame(np.sort(df[['Name1','Name2']].values,1)).duplicated()]
Out[614]: 
  Name1 Name2  Value
1   Ale  Juan      1

性能

df=pd.concat([df]*100000)

%timeit df[pd.DataFrame(np.sort(df[['Name1','Name2']].values,1)).duplicated()]
10 loops, best of 3: 69.3 ms per loop
%timeit df[~df[['Name1', 'Name2']].apply(frozenset, axis=1).duplicated()]
1 loop, best of 3: 3.72 s per loop

票数 26

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51182228

复制

相似问题

问Python -基于两列组合删除数据框中的重复项？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python -基于两列组合删除数据框中的重复项？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python -基于两列组合删除数据框中的重复项？
EN