问pandas根据按列分组的指标计算差异
EN

Stack Overflow用户

提问于 2018-05-30 08:40:51

回答 2查看 74关注 0票数 2

这是我的问题。我不知道如何描述它，所以我只举一个例子。

这里，"a“是用户id，"b”是时间，"k“是二进制指示符标志。"b“肯定是连续的。我想得到的是：

a b k diff_b
0 0 0 nan
0 1 1 nan
0 2 0 1
0 3 0 2
0 4 1 3
0 5 0 1
1 0 0 nan
1 1 1 nan
1 2 0 1
1 3 1 2
1 4 0 1

因此，diff_b是一个时间差变量。它显示当前时间点与上一个具有操作的时间点之间的持续时间。如果以前从未执行过操作，则返回nan。此diff_b按a分组。对于每个用户，此diff_b是独立计算的。

任何人都可以修改我的标题吗？我不知道如何用英语来描述它。如此复杂。

谢谢!

group-by

difference

python

pandas

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-05-30 08:57:29

IIUC

df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield 
Out[260]: 
0     NaN
1     NaN
2     1.0
3     2.0
4     3.0
5     1.0
6     NaN
7     NaN
8     1.0
9     2.0
10    1.0
dtype: float64

票数 3

Stack Overflow用户

发布于 2018-05-30 09:14:07

使用cumsum和shift为每组a创建从k == 1到下一个k == 1的行数据分区

parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())

按df.a和parts分组，计算每个组内b和b.min()之间的差值

vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)

当part == 0并分配回数据帧时将值设置为null

df['diff_b'] = np.select([parts!=0], [vals], np.nan)

输出：

    a  b  k  diff_b
0   0  0  0     NaN
1   0  1  1     NaN
2   0  2  0     1.0
3   0  3  0     2.0
4   0  4  1     3.0
5   0  5  0     1.0
6   1  0  0     NaN
7   1  1  1     NaN
8   1  2  0     1.0
9   1  3  1     2.0
10  1  4  0     1.0

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50594852

复制

相似问题

问pandas根据按列分组的指标计算差异
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pandas根据按列分组的指标计算差异EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pandas根据按列分组的指标计算差异
EN