前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >sql题目pandas解法(02):isin

sql题目pandas解法(02):isin

作者头像
咋咋
发布2021-09-01 14:50:36
7820
发布2021-09-01 14:50:36
举报
文章被收录于专栏:数据大宇宙数据大宇宙

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

有不少小伙伴向我反映 pandas 专栏缺少练习题,因此这里我使用一套 sql 的题目,作为 pandas 专栏的课后练习题。本文大部分的解题过程尽可能使用 pandas 中最基础的入门操作完成,涉及的知识点基本在专栏中的前15节内容中有详尽讲解。

本文案例是一个关于学生科目考试成绩作为背景的数据,数据的准备过程上一篇已经有讲解,这里不多说,直接做题!

上一篇文章在这里

sql题目pandas解法(01):筛选、all、any常用技巧


题目

与"赵雷"同学报读课程至少有一门相同的学生信息:

解读:

  1. 行5:首先,找到"赵雷"的课程记录(df_wd.query(tg_query)[cols]) ,因为只有一行(.iloc[0]) ,看看哪些是缺考的(.isna())
  2. 行6:同上的逻辑,只是这次的条件是其他的同学
  3. 行8:用前2步的结果对比(tg_cond == other_cond) ,相当于知道每个同学的报考科目与"赵雷"一样有哪些,科目相同的是1,不同的是0,那么只需要数一下相同的(.sum(axis=1)) ,然后看结果是否多于一门即可(>=1)

这次,我们来详细对比一下 Sql 的实现:

  • Sql 相对来说比较简单,但是不"简洁",因为他的执行顺序是从内到外,一般不能一下子看出来其中的逻辑。下来大概说下他的执行顺序
  • 行5,6:从成绩表(sc)查出"赵雷"的考试科目(cid),为啥这里用 sid ?因为成绩表没有学生的名字!
  • 行3,4:再次从成绩表(sc)找出与"赵雷"的科目(上一步结果)有一样的成绩记录出来。为啥最终结果包含了"赵雷"本身,因为这一步没有过滤"赵雷"的记录!
  • 行1,2:结果需要大部分学生信息都在学生表(student),因此从学生表找到上一步结果的那些学生出来。为啥最终结果没有学生成绩的信息?因为学生表就没有这些信息!
  • 整个 Sql 的关键是 in 的使用
  • 使用 CTE(表达式) 可以让 Sql 的逻辑更加清晰,但是每个数据库的支持程度不太一样
  • 如果需求变成是,至少有2门一样的学生,那么以上思路完全不行了!

pandas 也能按这种思路完成:

  • pandas 中的 isin 对应 Sql 的 in
  • A列.isin(B列),得到的结果是一个长度与A列一样的 bool值的列,每个 bool 值表示 A列对应的值是否在 B列存在

与"赵雷"同学报读课程完全相同的学生信息:

  • 你会发现,这完全与之前的需求一样,只是上图红线处的判断数量的逻辑不一样而已

但是,如果我们使用之前的 Sql 思路,在这个需求上就完全不能使用,正确的 Sql 做法请看源码吧


没学过"张三"老师讲授的任一门课程的学生姓名:

  • 行4:所有(all)课程教师都不是"张三"(df_wd[cols]!=tc)的

两门及其以上不及格课程的同学的学号,姓名及其平均成绩:

  • 行3:少于60分的科目(df_wd[cols]<60)的数量(.sum(axis=1))多于或等于2门的(>=2)
  • 行5:平均成绩(df_wd[cols].mean(axis=1))

检索"语文 "课程分数小于 60,按分数降序排列的学生信息:

  • 行3:语文成绩小于60分(df_wd[cols]<60)
  • 行5:按分数降序排列(.sort_values(cols,ascending=False))

按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩:

  • 行4:求出平均成绩
  • 行5:有平均成绩的学生
  • 行6:排序
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据大宇宙 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 题目
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档