前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive求连续几天的问题

Hive求连续几天的问题

作者头像
阿年、嗯啊
发布2022-08-18 14:17:29
6820
发布2022-08-18 14:17:29
举报
文章被收录于专栏:阿年的数据梦

原表是这样的:

在这里插入图片描述
在这里插入图片描述

我们想求谁连续两天来买过商品。

分析:也就是说,我们想要知道,在某一个人的消费时间里,他有没有连续两天的消费记录。

解题思路:

1. 先按名字分组,时间升序排序,分好组后给每天的消费编号(如果一天有很多次消费记录要记得去重,一天只保留一条记录)
在这里插入图片描述
在这里插入图片描述
2. 在上次的基础上,求出时间差

计算时间差的方法:用时间减去编号,求出时间差,然后一组内时间差结果相等的说明他连续两天来过。 为什么要求时间差: 假设有如下时间,已经按照时间升序排好序了

时间

编号

2022-08-17

1

2022-08-18

2

2022-08-19

3

2022-08-21

4

2022-08-25

5

2022-08-26

6

然后我用上述方法计算出时间差:

时间

编号

时间差

2022-08-17

1

2022-08-16

2022-08-18

2

2022-08-16

2022-08-19

3

2022-08-16

2022-08-21

4

2022-08-17

2022-08-25

5

2022-08-20

2022-08-26

6

2022-08-20

你会发现,凡是前面的时间连着的,计算的时间差都相同,所以只要我们计算出时间差,然后过滤一下就可以了

在这里插入图片描述
在这里插入图片描述
3. 按姓名和时间进行分组,然后统计有几条时间差相同的数据
在这里插入图片描述
在这里插入图片描述
4. 过滤出我们想要的数据
在这里插入图片描述
在这里插入图片描述

所以最终的Hive sql 如下:

代码语言:javascript
复制
select
  name,
  count(*) c
from
  (
    select
      *,
      date_sub(orderdate, rn) ds
    from
      (
        select
          *,
          row_number() over(partition by name order by orderdate) rn
        from
          business
      ) t1
  ) t2
group by
  name,
  ds
having
  c >= 2;
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 先按名字分组,时间升序排序,分好组后给每天的消费编号(如果一天有很多次消费记录要记得去重,一天只保留一条记录)
  • 2. 在上次的基础上,求出时间差
  • 3. 按姓名和时间进行分组,然后统计有几条时间差相同的数据
  • 4. 过滤出我们想要的数据
  • 所以最终的Hive sql 如下:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档