前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3道数据分析师面试题实录

3道数据分析师面试题实录

作者头像
luanhz
发布2020-06-09 11:52:20
8700
发布2020-06-09 11:52:20
举报
文章被收录于专栏:小数志小数志

导读

今天参加了一场数据分析师面试,遴选3道记录以资后鉴。

1. SQL求两表差集

用SQL实现黄色部分查询

求差集在其他SQL语句中存在关键词Except的用法,而MySQL中没有,所以需要用其他方法折中实现。但实现本身也不难。

以公共字段为id示例,提供两种常规思路:

  • 利用子查询

用最常规的语法(说人话的实现语句)是用in:

代码语言:javascript
复制
SELECT * 
FROM A 
WHERE id not in (SELECT id FROM B)

当然,能用关键字in实现的语句基本上都可以用exists实现:

代码语言:javascript
复制
SELECT * 
FROM A 
WHERE not exists (SELECT 1 FROM B WHERE A.id=B.id)

用子查询实现逻辑简单,语句更为直接,但执行效率一般较差,至于用in还是exists又要取决于索引情况和A、B两表数据规模情况。

  • 利用表连接查询

实现两表差集更为可取的做法是用表连接:

代码语言:javascript
复制
SELECT A.* 
FROM A left join B 
    using(id)
WHERE B.id is null

表连接方式更为高效,如果当B表较大但id列存在有效索引时,实际上还存在一点优化的空间和技巧:

代码语言:javascript
复制
SELECT A.* 
FROM A left join 
    (SELECT id FROM B) C 
    using(id) 
WHERE C.id is null

这里假定B表id字段已建立索引,进而通过覆盖索引查询B表id字段形成衍生表C,会大大加速查询过程,进而优化表连接查询结果。

2. 64匹马竞技取前4

实话说,这道题曾经见过,但无奈当时并未仔细思考。面试现场,脑中想到了可能的解决框架:

  • 64匹马用8条赛道,取前4,这是mapreduce模型啊,问题是怎么reduce出TOP4来
  • 64取前4,这是排序算法中快排的套路:无需关注具体排名,仅需查询TOP4即可

实际上,实现起来却尽是浆糊,剪不断理还乱。最后,只能给出中规中矩的晋级策略,也是最常规和最差的方案:每8匹马取前4,逐轮晋级,64→32→16→8→4,共需15轮。

而更为理想的策略仅需10-11轮:

  • 64匹马分8组,每组单独竞技,各取前4作为候选空间

第1-8轮竞技

  • 为加快区分度,取各组第1名共8匹马进行竞技,记录排名

第9轮竞技

经过此轮,能得到很多信息量:

  1. 第1名是总冠军,且其原来所在组的2-4名均可能是总排名前4
  2. 第2、3、4名所在组仅需分别保留3-2-1匹马作为总排名前4的候选空间
  3. 此时问题转化为9选3
  • 9匹马中,选择其中的8匹竞技,取前3。这里,9选8的策略有很多,但最好的方案是期望经过此轮后无需考虑剩下的那匹马,也就是说将最不可能进入总排名前4的马作为备选。因此,最为理想的选择是将总冠军那一组的第4名作为备选马,确保该组第2名或第3名未进入8选3结果中,无需再考虑备选的第4名,否则才需加赛。当然,将第二列的第三名作为备选也会得到相同的期望。

第10轮,选出最终2-3-4名

最终,总轮次仅需10-11轮。

3. 业务异常点分析

业务面中,遇到了一个经典的异常业务数据分析题,虽然是一道主观题,但实际上也是有框架的,不幸的是自己当时陷入了分析陷阱中:想当然的顺着面试官的暗示,将这个问题归结为一定是异常,然后展开具体分析。而更一般的分析框架应该是这样的:

业务异常点分析思路框架

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小数志 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档