首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pandas:当天持续时间总和超过30分钟的天数的计算

Pandas:当天持续时间总和超过30分钟的天数的计算
EN

Stack Overflow用户
提问于 2020-05-22 17:15:32
回答 3查看 41关注 0票数 0

下面是一个示例源代码:

代码语言:javascript
复制
ID      Date              Duration
111     2020-01-01        00:42:23
111     2020-01-01        00:23:23
111     2020-01-02        00:37:22
222     2020-01-02        00:13:08
222     2020-01-03        01:52:11
....
999     2020-01-31        00:15:21
999     2020-01-31        00:52:12

我使用Pandas,我想按日期计算每一天的持续时间之和,并计算每月有多少天的持续时间之和大于30分钟(按ID分组)

以下是我需要获取的内容:

代码语言:javascript
复制
ID      Total days when sum of duration by day from each ID > 30 min (per month)
111     2
222     1
.... 
999     5

有些是这样的:

代码语言:javascript
复制
    aggregation = {
        'num_days': pd.NamedAgg(column="duration", aggfunc=lambda x: x.sum() > dt.timedelta(minutes=30)),
    }
    total_active = df.groupby('Id').agg(**aggregation)

但这根本不是我需要的.

有人能帮上忙吗?

EN

回答 3

Stack Overflow用户

发布于 2020-05-22 17:27:29

尝尝这个,

代码语言:javascript
复制
df['_duration'] = pd.to_datetime(df['Duration'], format="%H:%M:%S").dt.hour

df_g = df.groupby('id')['_duration'].sum().reset_index()

# this should yield greater than 30.
df_g = df_g[df_g['_duration'] > 30]

to_dateime

票数 0
EN

Stack Overflow用户

发布于 2020-05-22 17:35:36

代码语言:javascript
复制
print(df)

    ID  Date    Duration
0   111 2020-01-01  00:42:23
1   111 2020-01-01  00:23:23
2   111 2020-01-02  00:37:22
3   222 2020-01-02  00:13:08
4   222 2020-01-03  01:52:11
5   999 2020-01-31  00:15:21
6   999 2020-01-31  00:52:12

使用pd.TimedeltaDuration列的数据类型转换为<m8[ns]

代码语言:javascript
复制
df['Duration'] = df.Duration.apply(pd.Timedelta)

然后使用groupbysum

代码语言:javascript
复制
result = (df.groupby(['ID', "Date"])['Duration'].sum() > "30min").groupby("ID").sum()

输出:

代码语言:javascript
复制
ID
111    2.0
222    1.0
999    1.0
票数 0
EN

Stack Overflow用户

发布于 2020-05-22 17:54:44

不确定我们是求和还是计数。然而,满足您的输出。

代码语言:javascript
复制
df['Date']=pd.to_datetime(df['Date'])#Coerce Date to datetime
df['Duration']=pd.to_timedelta(df['Duration'], unit='m')#Coerce duration to timedelta
df.set_index(df['Date'], inplace=True)#Set time as index
#Groupby date and id, examine condtiton and sum.
(df.groupby([df.index.date, df.ID])['Duration'].sum()>'30min').groupby('ID').sum()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61951626

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档