首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何在Pandas系列中设置重复值的上限

如何在Pandas系列中设置重复值的上限
EN

Stack Overflow用户
提问于 2015-07-28 07:30:56
回答 2查看 116关注 0票数 1

我有一个具有高度冗余数据的数据帧,因此我想将这个数据帧复制到一个新的数据帧,设置我的索引列的最大冗余。

在下面的示例中,"pop“是我的索引列;在我的新数据帧中,我希望将最大冗余度设置为2:

代码语言:javascript
代码运行次数:0
运行
复制
data = {"state":["Ohio","Ohio","Ohio","Nevada","Nevada"],
'year' : [2000,2001,2002,2001,2002],'pop' : ["pop1", "pop1","pop1","pop2","pop2"]}

frame = pd.DataFrame(data)
frame = frame.set_index('pop')
EN

回答 2

Stack Overflow用户

发布于 2015-07-28 07:50:54

您可以结合使用groupbyhead(n)来返回每个组的第一个n行:

代码语言:javascript
代码运行次数:0
运行
复制
frame.groupby('pop').head(2)
Out[32]: 
    pop   state  year
0  pop1    Ohio  2000
1  pop1    Ohio  2001
3  pop2  Nevada  2001
4  pop2  Nevada  2002
票数 3
EN

Stack Overflow用户

发布于 2015-07-28 08:00:27

以下是Wes McKinney如何实现filtering duplicates。dataframe对象目前支持drop_duplicates方法,但它将采用groupby方法来实现您想要的内容。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31665071

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档