前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >将间隔小于60s的数据分到同一组

将间隔小于60s的数据分到同一组

作者头像
数据仓库晨曦
发布2024-01-08 15:44:18
1302
发布2024-01-08 15:44:18
举报
文章被收录于专栏:数据仓库技术数据仓库技术

一、题目

有一份用户访问记录表,记录用户id和访问时间,如果用户访问时间间隔小于60s则认为时一次浏览。

样例数据

代码语言:javascript
复制
+----------+--------------+
| user_id  | access_time  |
+----------+--------------+
| 1        | 1736337600   |
| 1        | 1736337660   |
| 2        | 1736337670   |
| 1        | 1736337710   |
| 3        | 1736337715   |
| 2        | 1736337750   |
| 1        | 1736337760   |
| 3        | 1736337820   |
| 2        | 1736337850   |
| 1        | 1736337910   |
+----------+--------------+

二、分析

1.首先对每个用户的访问时间排序,计算出时间差,考察的是开窗函数lag();

2.对时间差进行判断,确认是否需要新建一个组;

3.然后使用sum()的开窗函数,累加小计,赋予组ID;

维度

评分

题目难度

⭐️⭐️⭐️⭐️⭐️

题目清晰度

⭐️⭐️⭐️⭐️⭐️

业务常见度

⭐️⭐️⭐️⭐️

三、SQL

1.分用户计算出每次点击时间差;

代码语言:javascript
复制
select
user_id,
access_time,
last_access_time,
access_time-last_access_time as time_diff
from
(select
user_id,
access_time,
lag(access_time)over(partition by user_id order by access_time) as last_access_time
from user_access_log) t

查询结果

2.确认是否需要新建一个组;

代码语言:javascript
复制
select
user_id,
access_time,
last_access_time,
if(access_time-last_access_time>=60,1,0) as is_new_group
from
(select
user_id,
access_time,
lag(access_time)over(partition by user_id order by access_time) as last_access_time
from user_access_log) t

查询结果

3.使用sum()over(partition by ** order by **)累加计算,给出组ID。聚合函数开窗使用order by 计算结果是从分组开始计算到当前行的结果,这里的技巧:需要新建组的时候就给标签赋值1,否则0,然后累加计算结果在新建组的时候值就会变化

代码语言:javascript
复制
with t_group as
(select
user_id,
access_time,
last_access_time,
if(access_time-last_access_time>=60,1,0) as is_new_group
from
(select
user_id,
access_time,
lag(access_time)over(partition by user_id order by access_time) as last_access_time
from user_access_log) t
)
select
user_id,
access_time,
last_access_time,
is_new_group,
sum(is_new_group)over(partition by user_id order by access_time asc) as group_id
from t_group

查询结果

四、建表语句和数据插入

代码语言:javascript
复制
--建表语句
CREATE TABLE user_access_log (
  user_id INT,
  access_time BIGINT
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
--插入数据
insert into user_access_log (user_id,access_time)
values
(1,1736337600),
(1,1736337660),
(2,1736337670),
(1,1736337710),
(3,1736337715),
(2,1736337750),
(1,1736337760),
(3,1736337820),
(2,1736337850),
(1,1736337910);
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据仓库技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、题目
  • 二、分析
  • 三、SQL
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档