我目前正在处理这个https://cs50.harvard.edu/x/2020/psets/7/movies/,并试图完成9.sql。
有一个叫做“电影”的数据库,里面有表格:电影(列: id,标题,年份),人物(id,名字,出生)和明星(movie_id,person_id)。
任务是:
写一个SQL查询,列出所有在2004年上映的电影中主演的人的名字,按出生年份排序。它应该返回18,013个名字。
到目前为止,这就是我所做的
SELECT count(distinct name)
from people
join stars on stars.person_id = people.id
join movies on stars.movie_id = movies.id
WHERE year = 2004;
但是,这只会返回一个17,965的计数.
有人知道为什么会这样吗?
发布于 2020-01-09 13:08:25
如果你count(distinct person_id)
,那么你将得到18013。名字并不是唯一的,这是合理的。不合理的是考试中的指示说你应该只列出名字。
正确区分名称的一种方法是执行以下操作:
SELECT p.name
from people p
where p.id in (
select distinct s.person_id
from stars s join movies m on s.movie_id = m.id
WHERE m.year = 2004)
如果您这样做,那么您甚至不需要distinct
,因为in
操作符的定义。但不管怎么说,你可能都会得到相同的执行计划。
在我看来,如果一个p.name
属于另一个人,可以不止一次地列出它。如果规则以以下单词开头,那么您编写的查询就可以了:
如果一个人的名字..。
而不是这些词:
如果一个人..。
这让我想起了C. J.日期一天在课堂上做的事情。他在投影仪上放了一个铝箔,在墙上投射出一个烟斗的图像。然后他问:这是什么?
因为它是一个数据库类,而不是一个物理类,没有人敢成为一个聪明的-a**。
https://stackoverflow.com/questions/59664139
复制相似问题