前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从100万条数据中找到极大值所在行

从100万条数据中找到极大值所在行

作者头像
白日梦想家
发布2020-08-10 15:55:43
6470
发布2020-08-10 15:55:43
举报
文章被收录于专栏:SQL实现

问题描述

今天在星球里看到了这道题,题目的详细见下图。

授信表(t_credit)的表结构:

字段

类型

描述

credit_ts

Date

授信时间

source_ch

String

客户来源渠道

customer_id

Integer

客户ID

amount

Float

客户额度

这道题目给出的两个信息需要特别关注:

  1. 授信表的数据有 100万;
  2. 最终结果只需要展示每个渠道的最后授信时间所在的行记录(100 条左右)。

解决方案

一般涉及到获取极大值/极小值的所在行记录的需求都可以用窗口函数来解决。

先对表数据按照客户来源渠道分组,再对分组内的数据按照授信时间降序排序,序号排在第一位的记录就是我们要找的记录。

具体的 SQL 实现如下:

代码语言:javascript
复制
SELECT
  credit_ts,
  source_ch,
  customer_id,
  amount
FROM
  (SELECT
    *,
    rank () over (
      PARTITION BY source_ch
  ORDER BY credit_ts DESC
  ) AS rn
  FROM
    t_credit) t
WHERE rn = 1

考虑到同一个渠道内的授信时间可能有重复,没有使用窗口函数 row_number() ,而是使用了 rank() ,也可以使用 dense_rank()

不过,由于 t_credit 表的数据量有 100万,而最终要查找的结果只有 100 条左右,使用窗口函数排序会有性能问题。如果对查询响应的时间有要求,可以考虑下面的方案。

首先,找到每个渠道的最后授信时间,这步的结果暂存在临时表 t 中,临时表 t 只有 100 条数据。然后,t 再和 t_credit 关联,获取到 t 中 100 条记录的明细信息(由于可能存在授信时间重复的记录,因此最终的结果有可能超过 100 条)。

每个渠道的最后授信时间可通过下面的 SQL 得到:

代码语言:javascript
复制
SELECT
  source_ch,
  MAX(credit_ts) AS max_credit_ts
FROM
  t_credit
GROUP BY source_ch

t 和 t_credit 关联获取到完整的结果:

代码语言:javascript
复制
SELECT
  t_credit.*
FROM
  t_credit
  INNER JOIN
    (SELECT
      source_ch,
      MAX(credit_ts) AS max_credit_ts
    FROM
      t_credit
    GROUP BY source_ch) t
    ON t.source_ch = t_credit.source_ch
    AND t.max_credit_ts = t_credit.credit_ts
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SQL实现 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题描述
  • 解决方案
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档