首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何分析此Pandas DataFrame中所有重复的条目?

如何分析此Pandas DataFrame中所有重复的条目?
EN

Stack Overflow用户
提问于 2014-10-08 04:04:08
回答 1查看 42.6K关注 0票数 22

我希望能够在Pandas DataFrame中计算数据的描述性统计数据,但我只关心重复的条目。例如,假设我有一个由以下人员创建的DataFrame:

代码语言:javascript
复制
import pandas as pd
data={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}
frame=pd.DataFrame(data,columns=['key1','key2','data'])
print frame


     key1  key2  data
0     1     2     5
1     2     2     6
2     3     1     2
3     1     2     6
4     2     2     1
5     3     4     6
6     2     2     2
7     2     2     8

如您所见,第0、1、3、4、6和7行都是重复的(使用'key1‘和'key2’。但是,如果我像这样索引这个DataFrame:

代码语言:javascript
复制
frame[frame.duplicated(['key1','key2'])]

我得到了

代码语言:javascript
复制
   key1  key2  data
3     1     2     6
4     2     2     1
6     2     2     2
7     2     2     8

(即,第1行和第2行不显示,因为复制的方法没有将它们索引为True )。

这是我的第一个问题。我的第二个问题是如何从这些信息中提取描述性统计数据。暂时忘记丢失的重复项,假设我想计算重复项的.min()和.max() (这样我就可以得到一个范围)。我可以对groupby对象使用groupby和这些方法,如下所示:

代码语言:javascript
复制
a.groupby(['key1','key2']).min()

这给了我们

代码语言:javascript
复制
           key1  key2  data
key1 key2                  
1    2        1     2     6
2    2        2     2     1

我想要的数据显然就在这里,但是提取它的最佳方法是什么呢?如何索引结果对象以获得我想要的内容(即key1、key2、数据信息)?

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26244309

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档