首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >大熊猫数据的条件选择

大熊猫数据的条件选择
EN

Stack Overflow用户
提问于 2018-10-02 07:06:32
回答 2查看 115关注 0票数 2

我有给定形式的数据集

代码语言:javascript
运行
复制
   time    color height weight value
1  t1      red    hr1     wr1     vr1
2  t1      red    hr1     wr1     vr1
3  t1      blue   hb1     wb1    vb1
4  t1      blue   hb1     wb1     vb1
5  t1      green  hg1     wg1     vg1
6  t1      green  hg1     wg1     vg1
7  t2      blue   hb2     wb2     vb2
8  t2      green  hg2     wg2    vg2
9  t2      red    hr2     wr2     vr2
10 t2      red    hr2     wr2     vr2
11 t3      red    hr3     wr3     vr3
12 t3      red    hr3     wr3     vr3
13 t3      green  hg3     wg3     vg3
14 t3      green  hg3     wg3     vg3
15 t3      blue   hb3     wb3     vb3
16 t3      blue   hb3     wb3     vb3

我想放弃时间的测量,那里的颜色没有相同的计数值为2,每一个红色,蓝色绿色。在给定的代码段中,应该保留t1和t3,并删除用于t3度量的所有行。

其结果应该是:

代码语言:javascript
运行
复制
 time   color height weight value
1  t1      red    hr1     wr1     vr1
2  t1      red    hr1     wr1     vr1
3  t1      blue   hb1     wb1    vb1
4  t1      blue   hb1     wb1     vb1
5  t1      green  hg1     wg1     vg1
6  t1      green  hg1     wg1     vg1
7  t3      red    hr3     wr3     vr3
8  t3      red    hr3     wr3     vr3
9  t3      green  hg3     wg3     vg3
10 t3      green  hg3     wg3     vg3
11  t3     blue   hb3     wb3     vb3
12  t3     blue   hb3     wb3     vb3

谢谢,

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-10-02 07:17:56

不如:

代码语言:javascript
运行
复制
s = df.groupby(['time', 'color']).size()
s = s.unstack(0).eq(2).all()
valid_times = s.index[s]

print(df[df.time.isin(valid_times)])

   time  color height weight value
1    t1    red    hr1    wr1   vr1
2    t1    red    hr1    wr1   vr1
3    t1   blue    hb1    wb1   vb1
4    t1   blue    hb1    wb1   vb1
5    t1  green    hg1    wg1   vg1
6    t1  green    hg1    wg1   vg1
11   t3    red    hr3    wr3   vr3
12   t3    red    hr3    wr3   vr3
13   t3  green    hg3    wg3   vg3
14   t3  green    hg3    wg3   vg3
15   t3   blue    hb3    wb3   vb3
16   t3   blue    hb3    wb3   vb3
票数 1
EN

Stack Overflow用户

发布于 2018-10-02 07:15:18

返回序列使用双GroupBy.transform,大小与原始DataFrame相同,因此可以使用boolean indexing

代码语言:javascript
运行
复制
df1 = df[df.groupby(['time', 'color'])['color']
           .transform('size')
           .eq(2)
           .groupby(df['time'])
           .transform('all')]

print (df1)
   time  color height weight value
1    t1    red    hr1    wr1   vr1
2    t1    red    hr1    wr1   vr1
3    t1   blue    hb1    wb1   vb1
4    t1   blue    hb1    wb1   vb1
5    t1  green    hg1    wg1   vg1
6    t1  green    hg1    wg1   vg1
11   t3    red    hr3    wr3   vr3
12   t3    red    hr3    wr3   vr3
13   t3  green    hg3    wg3   vg3
14   t3  green    hg3    wg3   vg3
15   t3   blue    hb3    wb3   vb3
16   t3   blue    hb3    wb3   vb3
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52603467

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档