前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >春招快到了,送你一份数据分析常见面试题

春招快到了,送你一份数据分析常见面试题

作者头像
IT阅读排行榜
发布2018-08-17 15:32:45
3020
发布2018-08-17 15:32:45
举报
文章被收录于专栏:华章科技华章科技

找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。

自我介绍

几乎所有的面试都免不了以自我介绍为开头。对于考官,通常也会想基于自我介绍发现接下来要问的问题。所以,自我介绍非常重要。我参考的模板:

教育背景:简单说说哪年在哪里获得什么学位。

相关经验:按时间顺序讲一下2个做过的项目,介绍下用了什么办法,比如用了什么编程语言,最后的成果是什么。最好有些量化的指标,比如发表了多少论文,被引用了多少次。这些项目最好和面试的职位有关系。实在没有,也可以看看从中学到的知识或者技能可否扩展到data science. 比如之前做过信号处理,可以讲这个项目为data science打下了统计基础。

最自豪的成就和表态:介绍一下自己最自豪的项目,关键是要点出自己的优势,比如迅速掌握了一个很大的代码库,或者在代码库中加入了一个很有用的特性,并再次强调一下自己的优势,结尾说,我希望能在XX公司继续发挥这些优势。

被问过的问题总结

机器学习(Machine learning)算法

包括算法对数据的假设,推导,有什么优缺点,何时改用什么算法,怎么选择算法,很类似P2 student intervention的model选择问题。

作为入门的参考书:Introduction to Data Mining (Pang-Ning Tan, Michael Steinbach, Vipin Kumar);

复杂一点儿的:The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani , Jerome Friedman)

相关的算法可能包括:

Classification / Regression

  • SVM:是很多考官的最爱,最好做到可以推导
  • Neural Networks
  • Trees & ensemble methods: boosting, bagging
  • Clustering
  • K-means/median/medoids
  • Spectral clustering
  • Hierarchical
  • DBSCAN: density based spatial clustering of applications with noise
  • Self organizing map Association: 这个在Udacity没有介绍,但是大数据可能会用到 Apriori 以及它对大数据的衍生 FP growth 并行实现

其他算法问题:

1、Q-learning: 解释为什么update Q value的时候要用下一个state的max Q,为什么不能用mean?

2、Kalman filter: 在项目中用到了,要求推导

3、Expectation maximization

关于大数据的问题

1、很多职位要求的数据量,要远远大于Udacity的项目,所以会牵扯到一些大数据相关的问题

2、参考书:Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman) 免费的下载:http://infolab.stanford.edu/~ullman/mmds/book.pdf

3、算法:

  • Finding similar items
  • Find frequent itemsets
  • Recommendation systems
  • Social graph mining 关于大数据的问题:
  • 用过的数据量有多大
  • GPU的相关经验?
  • Hadoop是怎么读入很大的数据的? 接受HDFS?
  • Spark的相关项目,用的什么model和library
  • Spark: RDD相关的概念
  • Spark: 如果数据远远大于内存,是怎么处理的?
  • 是否遇到过这样的情景:通过对数据的初步分析,观察到有趣的现象?
  • Spark: 举例说明inner join, outer join, etc. 其他网上看到的常见问题:
  • Support, confidence, and lift
  • What is curse of dimensionality?
  • A/B testing
  • Precision, recall, F1
  • How to handle missing data?

来源:优达学城

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-02-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 自我介绍
  • 几乎所有的面试都免不了以自我介绍为开头。对于考官,通常也会想基于自我介绍发现接下来要问的问题。所以,自我介绍非常重要。我参考的模板:
  • 被问过的问题总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档