我有一个如下所示的数据集:
timestamp event
12/1/2020 14:30 A
12/1/2020 14:12 C
12/1/2020 14:10 A
12/1/2020 12:01 B
11/1/2020 21:20 A
11/1/2020 21:00 B
..... ...events是用户在应用程序上的操作。timestamp是引发该特定事件的时候。我想挖掘数据中的事件序列,以找出用户的工作流程(带有时间限制的市场篮子分析?)从用户开始使用应用程序之日起就已在应用程序中。
解决这个问题的正确方法是什么?是否有允许我将序列挖掘作为黑匣子应用的库??
发布于 2020-09-14 16:28:15
你可以谷歌搜索关于制作日期功能。2)找出事件的累积和-
cumsum_df_all = df.groupby('column')[other-columns].cumsum()
cumsum_14_day = (df.groupby('column')[other-columns].rolling(14, min_periods=1).sum().reset_index(0, drop=True)就像wise 7,3,1天一样,只要看看数据有多频繁,它就会快速变化。
rolling_avg_14_day = (df.groupby('column').rolling(14,min_periods=1).mean().reset_index(0,drop=True))
相应地设置滚动周期。
基本上,我们试图将时间有序序列转化为线性回归问题。
https://datascience.stackexchange.com/questions/81688
复制相似问题