partition by返回重复行

PARTITION BY 是 SQL 中的一个子句，用于将查询结果集分割成多个分区，并且可以对每个分区应用聚合函数。当使用 PARTITION BY 时，如果查询结果中存在重复的行，那么这些重复的行会被分配到相应的分区中。

基础概念

PARTITION BY 子句通常与窗口函数一起使用，窗口函数允许在结果集的每个分区上执行计算。例如，ROW_NUMBER()、RANK() 和 DENSE_RANK() 等函数可以与 PARTITION BY 结合使用来为每个分区内的行分配一个唯一的序号。

类型与应用场景

类型：PARTITION BY 可以与多种窗口函数结合使用，如聚合函数、排名函数等。
应用场景：
- 分析每个部门的销售业绩。
- 计算每个产品的累计销售额。
- 对时间序列数据进行移动平均计算。

遇到问题：返回重复行

如果在使用 PARTITION BY 后发现结果集中有重复的行，这通常是因为：

数据本身就有重复：源数据表中就存在完全相同的行。
分区键选择不当：选择的分区键不能有效区分不同的行。

解决方法

检查并清理源数据：确保源数据表中没有重复的行。
检查并清理源数据：确保源数据表中没有重复的行。
选择合适的分区键：确保分区键能够唯一标识每个分区内的行。
选择合适的分区键：确保分区键能够唯一标识每个分区内的行。
使用聚合函数去重：如果需要去除重复行，可以在查询中使用 DISTINCT 关键字或者聚合函数。
使用聚合函数去重：如果需要去除重复行，可以在查询中使用 DISTINCT 关键字或者聚合函数。

示例代码

假设我们有一个销售表 sales，包含以下列：sale_id, product_id, sale_date, amount。我们想要计算每个产品的累计销售额，并且去除重复的行。

WITH ranked_sales AS (
    SELECT product_id, sale_date, amount,
           SUM(amount) OVER (PARTITION BY product_id ORDER BY sale_date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) as cumulative_amount,
           ROW_NUMBER() OVER (PARTITION BY product_id, sale_date ORDER BY amount) as rn
    FROM sales
)
SELECT product_id, sale_date, cumulative_amount
FROM ranked_sales
WHERE rn = 1;

在这个示例中，我们首先使用 ROW_NUMBER() 函数为每个 product_id 和 sale_date 组合分配一个序号，然后只选择序号为 1 的行，以此来去除重复的行。

通过这种方式，我们可以确保即使在存在重复行的情况下，也能够得到正确的累计销售额，并且结果集中不会有重复的行。