熊猫根据一栏分类的指标计算差异

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (28)

不知道如何描述它,所以我只是举个例子。

a b k
0 0 0
0 1 1
0 2 0
0 3 0
0 4 1
0 5 0
1 0 0
1 1 1
1 2 0
1 3 1
1 4 0

这里a是用户ID,b是时间,k是二进制指标。b肯定是连续的。我想得到的是这样的:

a b k diff_b
0 0 0 nan
0 1 1 nan
0 2 0 1
0 3 0 2
0 4 1 3
0 5 0 1
1 0 0 nan
1 1 1 nan
1 2 0 1
1 3 1 2
1 4 0 1

所以,diff_b是一个时间差异变量。它通过一个动作显示当前时间点和上一个时间点之间的持续时间。如果之前没有任何操作,则返回nan。此diff_b由a分组。对于每个用户,这个diff_b是独立计算的。

提问于
用户回答回答于
df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield 
Out[260]: 
0     NaN
1     NaN
2     1.0
3     2.0
4     3.0
5     1.0
6     NaN
7     NaN
8     1.0
9     2.0
10    1.0
dtype: float64
用户回答回答于

使用cumsum 创建k == 1直到下一个行的数据的分区k == 1,并对每个组进行移位a

parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())

由组df.aparts并计算之间的差bb.min()每个组内

vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)

当部分== 0并将其分配回数据帧时,将值设置为null

df['diff_b'] = np.select([parts!=0], [vals], np.nan)

输出:

    a  b  k  diff_b
0   0  0  0     NaN
1   0  1  1     NaN
2   0  2  0     1.0
3   0  3  0     2.0
4   0  4  1     3.0
5   0  5  0     1.0
6   1  0  0     NaN
7   1  1  1     NaN
8   1  2  0     1.0
9   1  3  1     2.0
10  1  4  0     1.0

所属标签

可能回答问题的人

  • 西风

    renzha.net · 站长 (已认证)

    9 粉丝1 提问5 回答
  • uncle_light

    5 粉丝518 提问3 回答
  • 学生

    2 粉丝477 提问3 回答
  • 军哥

    重庆雷驰信息技术有限公司 · 经理 (已认证)

    5 粉丝1 提问3 回答

扫码关注云+社区

领取腾讯云代金券