前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >可以拿来吊打面试官的 SQL Join (一)

可以拿来吊打面试官的 SQL Join (一)

作者头像
Lenis
发布2020-06-15 11:41:11
3670
发布2020-06-15 11:41:11
举报
文章被收录于专栏:有关SQL有关SQL

这一系列讲述,两张表的 Join, 或许你都不一定知道的事儿。

之前写过 SQL 的编译原理,很多朋友都不知道 SQL 背后,居然还有编译一说。SQL 用起来和 C#/Java 还是有些异样的。写好 SELECT * (虽然这么写很糟糕!)以后,按下 F5 便能得到结果。而不像 C#/Java 需要经过 CLR/JVM 这样的“转译”,才能看到实实在在的程序输入输出窗口。

正是由于 SQL 这个隐形编译器的存在,很多莫名的语法,看起来就很费解。比如最让初学者头疼的 Left Join:

代码语言:javascript
复制
SELECT Header.OrderId
    ,   Detail.ProductName
    ,   Detail.Amount 
FROM tblOrderHeader Header 
    LEFT JOIN tblOrderDetail Detail 
        ON Header.OrderId = Detail.OrderId 
WHERE Header.OrderDate > '2020-01-01' 
    AND Detail.Amount > 1000

本意上,这段 SQL 要达到的目的是,找出 2020 年 1 月 1 日以来,单件商品超过 1000 元销售额的订单,并显示该件商品的产品名。

到底为止,若能根据这个要求,完整写出上面的 SQL,那就是合格的数据库开发工程师了。但有些朋友,经常会写出这样的 SQL:

代码语言:javascript
复制
SELECT Header.OrderId
    ,   Detail.ProductName
    ,   Detail.Amount 
FROM tblOrderHeader Header 
    LEFT JOIN tblOrderDetail Detail 
        ON Header.OrderId = Detail.OrderId 
        AND Detail.Amount > 1000
WHERE Header.OrderDate > '2020-01-01' 

还有这样的 SQL:

代码语言:javascript
复制
SELECT Header.OrderId
    ,   Detail.ProductName
    ,   Detail.Amount 
FROM tblOrderHeader Header 
    LEFT JOIN tblOrderDetail Detail 
        ON Header.OrderId = Detail.OrderId 
        AND Header.OrderDate > '2020-01-01' 
        AND Detail.Amount > 1000

看上去,及其相似的三段 SQL,为什么出来的结果就千差万别呢。甚至,还会把数据库给跑死。

这就是 SQL 编译的底层。

要了解 SQL 编译的底层,要从这张图,全面入手:

而 Parsing 就是我们正确理解 SQL 执行过程的第一步。

下面这段 SQL 是比较完整的全范本:

代码语言:javascript
复制
(8) SELECT (9) DISTINCT (11) <TOP_specification> <select_list>
(1) FROM <left_table>
(3) <join_type> JOIN <right_table>
(2) ON <join_condition>
(4) WHERE <where_condition>
(5) GROUP BY <group_by_list>
(6) WITH {CUBE | ROLLUP}
(7) HAVING <having_condition>
(10) ORDER BY <order_by_list>

细心的读者可能会留意到每个 SQL 关键字前面都有一个用括号包起来的数字,这个数字就是 SQL 关键字执行的顺序。

我们通常会认为 SELECT 是 SQL 的第一步,其实 FROM 才是,紧接 From 的是 ON, JOIN. 之后才是 WHERE. 正确理解 JOIN 和 WHERE 的执行顺序,才可避免 LEFT JOIN 留下的坑。

当然,你别以为这样就结束了,那我也太不负责任了。接着往下读。

当两表 Join 的时候,先按照 ON 的条件做了一次笛卡尔积计算。甭管按照 ON 的条件能不能匹配,匹配的上,就拼接起来;匹配不上的,暂时保留。所以 ON 这一步,两边的数据,都会保留在一张虚拟的大表里。

比如,上面两张表, tblOrderHeader, tblOrderDetail. 他们的外键是OrderId.

这两个表,join 起来,会有这些情况:

tblOrderHeader 有些数据,在 tblOrderDetail 里按照 OrderId 找不到对应的订单明晰数据。

同样的,在 tblOrderDetail 中有些明细的订单,却在 tblOrderHeader 头部中找不到订单表头信息,比如订单时间,商店,会员信息等。

更常见的,是互相找不到对应数据

用实线框,框起来的表示两表可以互相匹配的数据。而对方表缺失的部分就用白色标注。

两表 Join 的初步结果就出来了,就是上面最后一张图的情况,即保留两表所有的数据,匹配上的,排在前头,匹配不上的依次排在后面。但必须保留两张表所有的数据。这要牢牢记住。

接着根据第三步 JOIN 的 Join Type(Left join, Right Join, Full Outer Join)来限制留下哪部分。

Left Join, 留下左半部分:

Right Join, 留下右半部分:

Full Outer Join , 左右都留下:

接下来,才是执行 WHERE 命令的时候。

此时,下面这段 SQL , 即

代码语言:javascript
复制
SELECT Header.OrderId
    ,   Detail.ProductName
    ,   Detail.Amount 
FROM tblOrderHeader Header 
    LEFT JOIN tblOrderDetail Detail 
        ON Header.OrderId = Detail.OrderId 
        AND Detail.Amount > 1000
WHERE Header.OrderDate > '2020-01-01' 

会比这条 SQL , 多出来很多数据:

代码语言:javascript
复制
SELECT Header.OrderId
    ,   Detail.ProductName
    ,   Detail.Amount 
FROM tblOrderHeader Header 
    LEFT JOIN tblOrderDetail Detail 
        ON Header.OrderId = Detail.OrderId 
WHERE Header.OrderDate > '2020-01-01' 
    AND Detail.Amount > 1000

那是因为,在 WHERE 中,Detail.Amount > 1000 这个命令,限制了右半边的数据必须要对应上左半边的OrderId, 所以 tblOrderDetail 中如果没有 tblOrderHeader 中的OrderId, 则就被舍去。哪怕 tblOrderHeader 的 OrderDate 是符合 OrderDate 大于 2020-01-01的条件。

比如有 tblOrderHeader 是有 5 条记录,符合 OrderDate 大于 2020-01-01的条件。

我们用红色实星框表示符合条件的记录

但最终,因为在 WHERE 中添加了 Detail.Amount > 1000 的条件,相当于把 Left join 改成了 INNER JOIN, 即增加了 Detail.OrderId IS NOT NULL 条件

这是本系列第一讲,接下来我会分享,WHERE 和 JOIN 到底哪个更快。敬请期待!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有关SQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档