Pandas列间引用

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (16)

我有一些数据如下:

+--------+------+
| Reason | Keys |
+--------+------+
| x      | a    |
| y      | a    |
| z      | a    |
| y      | b    |
| z      | b    |
| x      | c    |
| w      | d    |
| x      | d    |
| w      | d    |
+--------+------+

我想得到Reason相应的每个第一次出现Key。喜欢这里,我应该得到Reasons x,y,x,wKeys a,b,c,d分别。之后,我想计算每个百分比的百分比Reason,如每个Reason发生的次数的度量。因此x = 2/4 = 50%.w,y = 25%每一个。

对于百分比,我想我可以使用类似的东西value_counts(normalize=True) * 100,基于前一步骤。什么是好的方法?

提问于
用户回答回答于

你是对的第二步,第一步可以实现

summary = df.groupby("Keys").first()
用户回答回答于

你可以用 drop_duplicates

df.drop_duplicates(['Reason'])
Out[207]: 
  Reason Keys
0      x    a
1      y    a
2      z    a
6      w    d

所属标签

可能回答问题的人

  • uncle_light

    5 粉丝518 提问8 回答
  • 嗨喽你好

    7 粉丝480 提问8 回答
  • 人生的旅途

    10 粉丝484 提问7 回答
  • 无聊至极

    4 粉丝504 提问6 回答

扫码关注云+社区

领取腾讯云代金券