腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在Pandas系列中设置重复值的上限

问如何在Pandas系列中设置重复值的上限
EN

Stack Overflow用户

提问于 2015-07-28 07:30:56

回答 2查看 116关注 0票数 1

我有一个具有高度冗余数据的数据帧，因此我想将这个数据帧复制到一个新的数据帧，设置我的索引列的最大冗余。

在下面的示例中，"pop“是我的索引列；在我的新数据帧中，我希望将最大冗余度设置为2：

data = {"state":["Ohio","Ohio","Ohio","Nevada","Nevada"],
'year' : [2000,2001,2002,2001,2002],'pop' : ["pop1", "pop1","pop1","pop2","pop2"]}

frame = pd.DataFrame(data)
frame = frame.set_index('pop')

python

pandas

回答 2

Stack Overflow用户

发布于 2015-07-28 07:50:54

您可以结合使用groupby和head(n)来返回每个组的第一个n行：

frame.groupby('pop').head(2)
Out[32]: 
    pop   state  year
0  pop1    Ohio  2000
1  pop1    Ohio  2001
3  pop2  Nevada  2001
4  pop2  Nevada  2002

票数 3

Stack Overflow用户

发布于 2015-07-28 08:00:27

以下是Wes McKinney如何实现filtering duplicates。dataframe对象目前支持drop_duplicates方法，但它将采用groupby方法来实现您想要的内容。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31665071

复制

相似问题

问如何在Pandas系列中设置重复值的上限
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Pandas系列中设置重复值的上限EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Pandas系列中设置重复值的上限
EN