我有这个数据框架:
import pandas as pd
df = pd.DataFrame({'time': ['20:00', '23:00', '21:00', '21:00', '22:00', '22:00', '20:30'],
'traf': [100, 200, 25, 300, 100, 200, 100],
'num': [5, 3, 5, 6, 41, 34, 10]})
df = df.set_index(['time']).sort_index()
print(df)
traf num
time
20:00 100 5
20:30 100 10
21:00 25 5
21:00 300 6
22:00 100 41
22:00 200 34
23:00 200 3
我正在尝试编写一个函数,通过df['traf']
列的值聚合我的数据帧,然后报告df['num']
列中满足条件的第一个值。
这是我正在做的例子,但我不确定这是不是一个正确的艰难之举。此外,由于我正在处理一个非常大的数据帧,我不确定这种方式是否足够有效。
filter = df.groupby(["time"])['traf'].sum() >= 225
df.where(filter, inplace=True)
print(df)
traf num
time
20:00 NaN NaN
20:30 NaN NaN
21:00 25.0 5.0
21:00 300.0 6.0
22:00 100.0 41.0
22:00 200.0 34.0
23:00 NaN NaN
因此,根据上面的结果,我希望我的输出是列num中的第一个值,在本例中不是NaN。
发布于 2019-05-30 06:51:29
在sum
中使用transform
,然后使用first
再次使用groupby
s=df.groupby(["time"])['traf'].transform('sum').gt(255)
df[s].groupby('time').num.first()
Out[207]:
time
21:00 5
22:00 41
Name: num, dtype: int64
或
df.loc[s,'num'].iloc[0]
Out[211]: 5
https://stackoverflow.com/questions/56369475
复制相似问题