找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。
教育背景:简单说说哪年在哪里获得什么学位。
相关经验:按时间顺序讲一下2个做过的项目,介绍下用了什么办法,比如用了什么编程语言,最后的成果是什么。最好有些量化的指标,比如发表了多少论文,被引用了多少次。这些项目最好和面试的职位有关系。实在没有,也可以看看从中学到的知识或者技能可否扩展到data science. 比如之前做过信号处理,可以讲这个项目为data science打下了统计基础。
最自豪的成就和表态:介绍一下自己最自豪的项目,关键是要点出自己的优势,比如迅速掌握了一个很大的代码库,或者在代码库中加入了一个很有用的特性,并再次强调一下自己的优势,结尾说,我希望能在XX公司继续发挥这些优势。
机器学习(Machine learning)算法
包括算法对数据的假设,推导,有什么优缺点,何时改用什么算法,怎么选择算法,很类似P2 student intervention的model选择问题。
作为入门的参考书:Introduction to Data Mining (Pang-Ning Tan, Michael Steinbach, Vipin Kumar);
复杂一点儿的:The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani , Jerome Friedman)
相关的算法可能包括:
Classification / Regression
其他算法问题:
1、Q-learning: 解释为什么update Q value的时候要用下一个state的max Q,为什么不能用mean?
2、Kalman filter: 在项目中用到了,要求推导
3、Expectation maximization
关于大数据的问题
1、很多职位要求的数据量,要远远大于Udacity的项目,所以会牵扯到一些大数据相关的问题
2、参考书:Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman) 免费的下载:http://infolab.stanford.edu/~ullman/mmds/book.pdf
3、算法:
来源:优达学城