首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >计算重叠间隔外的处理时间

计算重叠间隔外的处理时间
EN

Stack Overflow用户
提问于 2021-10-19 13:19:00
回答 3查看 83关注 0票数 2

我有一个从salesforce导出并转换的原始数据,如下所示;

代码语言:javascript
运行
复制
df = pd.DataFrame(columns=['contact_start','name', 'aht'], 
                  data=[['2021-09-27 09:58:00','Venus','180'],
                        ['2021-09-27 10:00:00','Venus','240'],
                        ['2021-09-27 11:05:00','Venus','60'],
                        ['2021-09-27 10:55:00','Mars','30'],
                        ['2021-09-27 10:56:00','Mars','30']])

使用下面的代码

代码语言:javascript
运行
复制
df["contact_start"] = pd.to_datetime(df["contact_start"], format = "%Y-%m-%d %H:%M:%S",errors='coerce')
df["date"] = df["contact_start"].dt.strftime('%Y-%m-%d')
df['aht']=pd.to_datetime(df["aht"], unit='s').dt.strftime("%H:%M:%S")
df['contact_finish'] = pd.to_timedelta(df['aht']) + pd.to_datetime(df['contact_start'])
df['contact_finish'] = df['contact_finish'].astype('datetime64[s]')

我将其转换为:

但我的最终目标是处理重叠问题,我没有办法实现这一点。

结果应该如下所示:

代码语言:javascript
运行
复制
df = pd.DataFrame(columns=['date','name', 'total_duration_sec'], 
                  data=[['2021-09-27','Venus','420'], 
                        ['2021-09-27','Mars','60']])

我猜这看起来很简单,但实际上并非如此。如果有任何帮助,我将不胜感激。

编辑:我不知道如何在python中放入更有意义的数据,所以我上传了一个示例数据文件(3kb csv)

sample data

EN

回答 3

Stack Overflow用户

发布于 2021-10-19 13:48:42

我认为您可以在每个名称的连续contact_start之间创建一个以秒为单位的时间差

代码语言:javascript
运行
复制
upper_seconds = (
    df.sort_values(['name','contact_start'])
      .groupby('name')['contact_start'].diff(-1)
      .dt.total_seconds().abs())

print(upper_seconds.sort_index())
# 0     120.0
# 1    3900.0
# 2       NaN
# 3      60.0
# 4       NaN
# Name: contact_start, dtype: float64

现在,您可以将其用作aht上的上剪辑,然后按名称、日期和总和分组。

代码语言:javascript
运行
复制
res = (
    df['aht'].astype(int)
      .clip(upper=upper_seconds)
      .groupby([df['name'], df['date']]).sum()
      .reset_index(name='total_duration_sec')
)
print(res)
    name        date  total_duration_sec
0   Mars  2021-09-27                  60
1  Venus  2021-09-27                 420

请注意,我使用了您已经编写的前两行,以获得良好的类型。

代码语言:javascript
运行
复制
df["contact_start"] = pd.to_datetime(df["contact_start"], 
                                     format = "%Y-%m-%d %H:%M:%S",errors='coerce')
df["date"] = df["contact_start"].dt.strftime('%Y-%m-%d')
票数 0
EN

Stack Overflow用户

发布于 2021-10-19 14:33:58

您可以通过向代码中添加以下代码行来使现有代码正常工作:

代码语言:javascript
运行
复制
overlapped = pd.Series(df.groupby(['name']).apply(lambda x: (x['contact_finish'] - x['contact_start'].shift(-1)).dt.total_seconds().shift()).droplevel(0), name='overlapped')
overlapped = overlapped.mask(overlapped<0, 0).fillna(0)

df['date'] = df['contact_start'].dt.date
df = df.groupby(['date', 'name']).apply(lambda x: (((x['contact_finish'] - x['contact_start']).dt.seconds) - overlapped).sum()).reset_index(name='total_duration_sec')

输出:

代码语言:javascript
运行
复制
         date   name  total_duration_sec
0  2021-09-27   Mars                60.0
1  2021-09-27  Venus               420.0
票数 0
EN

Stack Overflow用户

发布于 2021-10-19 23:12:36

有一个涉及step functions的解决方案,它可以处理天边界上的重叠(如果需要更通用的方法)

代码语言:javascript
运行
复制
import pandas as pd
import staircase as sc

def create_union_stepfunction(dframe):
   return sc.Stairs(dframe, "contact_start", "contact_finish").make_boolean()

step_functions = df.groupby("name").apply(create_union_stepfunction)

这为您提供了一个名为step_functions的系列,按行星名称进行索引,值是表示步骤函数的staircase.Stairs对象。

代码语言:javascript
运行
复制
name
Mars     <staircase.Stairs, id=1956311648200>
Venus    <staircase.Stairs, id=1956311120648>
dtype: object

这些阶跃函数在接触期间的值为1,否则为0。然后我们可以用柱子将阶跃函数切分,并计算积分,以获得进行接触的每个柱子的总时间。每日垃圾桶使用

代码语言:javascript
运行
复制
def calc_seconds_per_bin(sf, bins):
    return sf.slice(bins).integral()/pd.Timedelta("1 second")


step_functions.apply(calc_seconds_per_bin, pd.date_range("2021-9-27", "2021-9-29"))

你会得到一个pandas.DataFrame

代码语言:javascript
运行
复制
        [2021-09-27, 2021-09-28)    [2021-09-28, 2021-09-29)
name        
Mars                        60.0                         0.0
Venus                      420.0                         0.0
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69631586

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档