窗口函数使用说明

最近更新时间:2024-08-05 17:09:11

我的收藏
窗口函数也叫 OLAP 函数(Online Analytical Processing,联机分析处理),可以对数据进行实时分析处理,对于一个分析型数据库而言非常重要。
只读分析引擎中窗口函数的使用方法与 MySQL 8.0 基本一致。但同时在 MySQL 5.7 版本中开启的只读分析引擎依然可以使用窗口函数与开窗语法。
具体的开窗使用语法如下:
SELECT
<WindowFunction> OVER (PARTITION BY <expr_list> ORDER BY <expr_list> [ASC / DESC] [<WindowFrame>])
FROM
tb_test_window;
SQL 示例:
select studentid,departmentid,classid,math,
row_number() over(partition by departmentid,classid order by math) as row_num
from student_scores;
此示例为:对分组 departmentid,classid 内的数据按 math 排序。

WindowFrame

Frame
ROWS 场景
RANGE 场景
CURRENT ROW
当前行。
与当前行相同的所有行。
UNBOUNDED PRECEDING
到第一行。
到第一行。
UNBOUNDED
FOLLOWING
到最后一行。
到最后一行。
<N> PRECEDING
前 N 行。
到大于等于 OrderBy 列值减去<N>得到的值对应的行。
<N> FOLLOWING
后 N 行。
到小于等于 OrderBy 列值加上<N>得到的值对应的行。
ROWS | RANGE <Frame>。
ROWS | RANGE BETWEEN <Frame> AND <Frame>。

WindowFunction

目前在开窗语法中支持使用的窗口函数如下表所示:
函数名称
功能描述
函数参数
支持类型
ROW_NUMBER()
对每个分区内数据标记行号。
-
-
RANK()
对每个分区内数据非密集型排序。
-
-
DENSE_RANK()
对每个分区内数据密集型排序。
-
-
LEAD(<expr>,<offset>,<default>)
计算当前行的后<offset>行的值,没有满足行则返回<default>。
[必选] <expr>:计算列。
所有类型(三参数除了 Time 类型)。
[可选] <offset>:当前行向后偏移行,缺省为1。
数值类型。
[可选] <default>:不满足计算行默认返回值,缺省返回 NULL。
与 <expr> 类型一致。
LAG(<expr>,<offset>,<default>)
计算当前行的前<offset>行的值,没有满足行则返回<default>。
[必选] <expr>:计算列。
所有类型(三参数除了 Time 类型)。
[可选] <offset>:当前行向前偏移行,缺省为1。
数值类型。
[可选] <default>:不满足计算行默认返回值,缺省返回 NULL。
与 <expr> 类型一致。
FIRST_VALUE(<expr>)
计算分区窗口内第一个值。
[必选] <expr>:计算列。
所有类型。
LAST_VALUE(<expr>)
计算分区窗口内最后一个值。
[必选] <expr>:计算列。
所有类型。
MIN(<expr>)
计算分区窗口OrderBy列最小值对应行的<expr>值。
[必选] <expr>:计算列。
所有类型。
MAX(<expr>)
计算分区窗口OrderBy列最大值对应行的<expr>值。
[必选] <expr>:计算列。
所有类型。
COUNT(<expr>)
计算分区窗口内数据总行数。
[必选] <expr>:计算列。
所有类型。
SUM(<expr>)
计算分区窗口内数据总和。
[必选] <expr>:计算列。
数值类型。
AVG(<expr>)
计算分区窗口内数据平均值。
[必选] <expr>:计算列。
数值类型。
数值类型:int,bigint,float,double,decimal。
字符类型:char,varchar。
时间类型:date,time,datetime,timestamp。

详细案例

案例建表语句:
drop table if exists test.tb_window;
create table test.tb_window (c1 int not null primary key, c2 int, c3 int);
create table test.tb_window (c1 Int32, c2 Nullable(Int32), c3 Nullable(Int32)) engine = LibraTree order by (c1);
insert into test.tb_window values (1, 1, 1), (2, 1, 1), (3, 1, 2), (4, 1, 4), (5, 1, 6), (6, 1, 6);

ROWS 关键字

说明:
该关键字是按照行统计窗口大小,并对窗口内数据进行计算。
-- 案例语句
mysql> select c2, c3, COUNT(c1) over (partition by c2 order by c3 ROWS BETWEEN CURRENT ROW AND 2 FOLLOWING) cn from test.tb_window;
+----+----+----+
| c2 | c3 | cn |
+----+----+----+
| 1 | 1 | 3 | -- 窗口行索引范围: current -> 之后2行 [0 ~ 2]
| 1 | 1 | 3 | -- 窗口行索引范围: current -> 之后2行 [1 ~ 3]
| 1 | 2 | 3 | -- 窗口行索引范围: current -> 之后2行 [2 ~ 4]
| 1 | 4 | 3 | -- 窗口行索引范围: current -> 之后2行 [3 ~ 5]
| 1 | 6 | 2 | -- 窗口行索引范围: current -> 之后1行 [4 ~ 5] (后边只有一行)
| 1 | 6 | 1 | -- 窗口行索引范围: current (后边没有数据)
+----+----+----+
6 rows in set (0.06 sec)

RANGE 关键字

说明:
该关键字是按照值统计窗口大小,并对窗口内数据进行计算,例如以下 SQL 案例是对 C3列当前行值加2后找到对应行位置,到当前行之间为一个窗口。
-- 案例语句
mysql> select c2, c3, COUNT(c1) over (partition by c2 order by c3 RANGE BETWEEN CURRENT ROW AND 2 FOLLOWING) cn from test.tb_window;
+----+----+----+
| c2 | c3 | cn |
+----+----+----+
| 1 | 1 | 3 | -- 窗口行索引范围: current -> 3对应的行索引之间的行数据 [0 ~ 2]
| 1 | 1 | 3 |
| 1 | 2 | 2 | -- 窗口行索引范围: current -> 4对应的行索引之间的行数据 [2 ~ 3]
| 1 | 4 | 3 | -- 窗口行索引范围: current -> 6对应的行索引之间的行数据 [3 ~ 5]
| 1 | 6 | 2 | -- 窗口行索引范围: current -> 8对应的行索引之间的行数据 [4 ~ 5]
| 1 | 6 | 2 |
+----+----+----+
6 rows in set (0.06 sec)

ROW_NUMBER

说明:
该函数是对分区内数据进行编号处理,该函数不受 <WindowFrame> 限制。
-- 案例语句
mysql> select c2, c3, ROW_NUMBER() over (partition by c2 order by c3) rn from test.tb_window;
+----+----+------+
| c2 | c3 | rn |
+----+----+------+
| 1 | 1 | 1 |
| 1 | 1 | 2 |
| 1 | 2 | 3 |
| 1 | 4 | 4 |
| 1 | 6 | 5 |
| 1 | 6 | 6 |
+----+----+------+
6 rows in set (0.04 sec)

RANK & DENSE_RANK

RANK 函数:对分区内部数据进行非密集型排名,该函数不受 <WindowFrame> 限制。
DESC_RANK函数:对分区内部数据进行密集型排名,该函数不受 <WindowFrame> 限制。
-- 案例语句
select
c2, c3,
RANK() over (partition by c2 order by c3) rk,
DENSE_RANK() over (partition by c2 order by c3) drk
from test.tb_window;
+------+------+------+------+
| c2 | c3 | rk | drk |
+------+------+------+------+
| 1 | 1 | 1 | 1 |
| 1 | 1 | 1 | 1 |
| 1 | 2 | 3 | 2 |
| 1 | 4 | 4 | 3 |
| 1 | 6 | 5 | 4 |
| 1 | 6 | 5 | 4 |
+------+------+------+------+
6 rows in set (0.05 sec)

LEAD & LAG

一、1个参数场景

LEAD(<expr>)函数:计算分区当前行的后一行数据,没有后一行默认补 NULL,该函数不受 <WindowFrame> 限制。
LAG(<expr>)函数:计算分区当前行的前一行数据,没有前一行默认补 NULL,该函数不受 <WindowFrame> 限制。
-- 案例语句
mysql> select
c2, c3,
LEAD(c3) over (partition by c2 order by c3) ld,
LAG(c3) over (partition by c2 order by c3) lg
from test.tb_window;
+------+------+------+------+
| c2 | c3 | ld | lg |
+------+------+------+------+
| 1 | 1 | 1 | NULL |
| 1 | 1 | 2 | 1 |
| 1 | 2 | 4 | 1 |
| 1 | 4 | 6 | 2 |
| 1 | 6 | 6 | 4 |
| 1 | 6 | NULL | 6 |
+------+------+------+------+
6 rows in set (0.11 sec)

二、2个参数场景

LEAD(<expr>, <offset>)函数:计算分区当前行的后 <offset> 行数据,没有后 <offset> 行默认补 NULL,该函数不受 <WindowFrame> 限制。
LAG(<expr>, <offset>)函数:计算分区当前行的前 <offset> 行数据,没有前 <offset> 行默认补 NULL,该函数不受 <WindowFrame> 限制。
-- 案例语句
mysql> select
c2, c3,
LEAD(c3, 2) over (partition by c2 order by c3) ld,
LAG(c3, 2) over (partition by c2 order by c3) lg
from test.tb_window;
+------+------+------+------+
| c2 | c3 | ld | lg |
+------+------+------+------+
| 1 | 1 | 2 | NULL |
| 1 | 1 | 4 | NULL |
| 1 | 2 | 6 | 1 |
| 1 | 4 | 6 | 1 |
| 1 | 6 | NULL | 2 |
| 1 | 6 | NULL | 4 |
+------+------+------+------+
6 rows in set (0.07 sec)

三、3个参数场景

LEAD(<expr>, <offset>, <default>>)函数:计算分区当前行的后 <offset> 行数据,没有后 <offset> 行补 <default>,该函数不受 <WindowFrame> 限制。
LAG(<expr>, <offset>, <default>>)函数:计算分区当前行的前 <offset> 行数据,没有前 <offset> 行补 <default>,该函数不受 <WindowFrame> 限制。
-- 案例语句
mysql> select
c2, c3,
LEAD(c3, 2, 1000) over (partition by c2 order by c3) ld,
LAG(c3, 2, 1000) over (partition by c2 order by c3) lg
from test.tb_window;
+------+------+------+------+
| c2 | c3 | ld | lg |
+------+------+------+------+
| 1 | 1 | 2 | 1000 |
| 1 | 1 | 4 | 1000 |
| 1 | 2 | 6 | 1 |
| 1 | 4 | 6 | 1 |
| 1 | 6 | 1000 | 2 |
| 1 | 6 | 1000 | 4 |
+------+------+------+------+
6 rows in set (0.10 sec)

FIRST_VALUE & LAST_VALUE

FIRST_VALUE(<expr>)函数:计算分区内窗口的第一个值(如果 OrderBy c3,且 c3列第一个值存在重复数据,那么 first_value(c4),场景结果可能是不稳定结果)。
LAST_VALUE(<expr>)函数:计算分区内窗口的最后一个值(如果 OrderBy c3,且 c3列最后一个值存在重复数据,那么 first_value(c4),场景结果可能是不稳定结果)。
-- 案例语句
mysql> select
c2, c3,
FIRST_VALUE(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) fv,
LAST_VALUE(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) lv
from test.tb_window;
+------+------+------+------+
| c2 | c3 | fv | lv |
+------+------+------+------+
| 1 | 1 | 1 | 6 |
| 1 | 1 | 1 | 6 |
| 1 | 2 | 1 | 6 |
| 1 | 4 | 1 | 6 |
| 1 | 6 | 1 | 6 |
| 1 | 6 | 1 | 6 |
+------+------+------+------+
6 rows in set (0.07 sec)

MIN & MAX

MIN(<expr>)函数:计算分区内窗口的最小值。
MAX(<expr>)函数:计算分区内窗口的最大值。
-- 案例语句
mysql> select
c2, c3,
MIN(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) mi,
MAX(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) ma
from test.tb_window;
+------+------+------+------+
| c2 | c3 | mi | ma |
+------+------+------+------+
| 1 | 1 | 1 | 6 |
| 1 | 1 | 1 | 6 |
| 1 | 2 | 1 | 6 |
| 1 | 4 | 1 | 6 |
| 1 | 6 | 1 | 6 |
| 1 | 6 | 1 | 6 |
+------+------+------+------+
6 rows in set (0.07 sec)

COUNT

说明:
计算分区内窗口的数据总行数。
-- 案例语句
mysql> select c2, c3, COUNT(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) c from test.tb_window;
+------+------+----+
| c2 | c3 | c |
+------+------+----+
| 1 | 1 | 6 |
| 1 | 1 | 6 |
| 1 | 2 | 6 |
| 1 | 4 | 6 |
| 1 | 6 | 6 |
| 1 | 6 | 6 |
+------+------+----+
6 rows in set (0.04 sec)

SUM

说明:
计算分区内窗口的数据总和。
-- 案例语句
mysql> select c2, c3, SUM(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) s from test.tb_window;
+------+------+------+
| c2 | c3 | s |
+------+------+------+
| 1 | 1 | 20 |
| 1 | 1 | 20 |
| 1 | 2 | 20 |
| 1 | 4 | 20 |
| 1 | 6 | 20 |
| 1 | 6 | 20 |
+------+------+------+
6 rows in set (0.06 sec)

AVG

说明:
计算分区内窗口的数据平均值。
-- 案例语句
mysql> select c2, c3, AVG(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) a from test.tb_window;
+------+------+--------+
| c2 | c3 | a |
+------+------+--------+
| 1 | 1 | 3.3333 |
| 1 | 1 | 3.3333 |
| 1 | 2 | 3.3333 |
| 1 | 4 | 3.3333 |
| 1 | 6 | 3.3333 |
| 1 | 6 | 3.3333 |
+------+------+--------+
6 rows in set (0.06 sec)