今天在星球里看到了这道题,题目的详细见下图。
授信表(t_credit)的表结构:
字段 | 类型 | 描述 |
---|---|---|
credit_ts | Date | 授信时间 |
source_ch | String | 客户来源渠道 |
customer_id | Integer | 客户ID |
amount | Float | 客户额度 |
这道题目给出的两个信息需要特别关注:
一般涉及到获取极大值/极小值的所在行记录的需求都可以用窗口函数来解决。
先对表数据按照客户来源渠道分组,再对分组内的数据按照授信时间降序排序,序号排在第一位的记录就是我们要找的记录。
具体的 SQL 实现如下:
SELECT
credit_ts,
source_ch,
customer_id,
amount
FROM
(SELECT
*,
rank () over (
PARTITION BY source_ch
ORDER BY credit_ts DESC
) AS rn
FROM
t_credit) t
WHERE rn = 1
考虑到同一个渠道内的授信时间可能有重复,没有使用窗口函数 row_number()
,而是使用了 rank()
,也可以使用 dense_rank()
。
不过,由于 t_credit 表的数据量有 100万,而最终要查找的结果只有 100 条左右,使用窗口函数排序会有性能问题。如果对查询响应的时间有要求,可以考虑下面的方案。
首先,找到每个渠道的最后授信时间,这步的结果暂存在临时表 t 中,临时表 t 只有 100 条数据。然后,t 再和 t_credit 关联,获取到 t 中 100 条记录的明细信息(由于可能存在授信时间重复的记录,因此最终的结果有可能超过 100 条)。
每个渠道的最后授信时间可通过下面的 SQL 得到:
SELECT
source_ch,
MAX(credit_ts) AS max_credit_ts
FROM
t_credit
GROUP BY source_ch
t 和 t_credit 关联获取到完整的结果:
SELECT
t_credit.*
FROM
t_credit
INNER JOIN
(SELECT
source_ch,
MAX(credit_ts) AS max_credit_ts
FROM
t_credit
GROUP BY source_ch) t
ON t.source_ch = t_credit.source_ch
AND t.max_credit_ts = t_credit.credit_ts