前言
与其他技术面试一样,数据科学面试也需要大量的准备工作。比如你需要知道统计、编程和机器学习的知识。今天就为大家盘点一下该做什么样的准备。

小窍门
在我们开始之前,我想分享一个小窍门。
我注意到公司进行的数据科学面试有几种类型。一些数据科学面试是产品驱动的。这些面试更多地关注于询问产品问题,比如您将使用什么样的度量标准来显示您应该在产品中改进什么。这些问题通常与SQL和一些Python问题一起出现。
另一种类型的数据科学面试往往是将编程和机器学习结合。
我们建议,如果你不确定自己将面临哪种类型的面试,不妨问问招聘人员。有些公司非常善于保持面试的一致性,但即使这样,团队也会根据他们寻找的内容而有所偏离。以下是一些我们注意到的关于一些公司数据科学面试的例子:
准备清单
由于这种差异,我们创建了一个清单,以跟踪您研究了哪些主题领域,以及您还需要覆盖哪些内容。
让我们首先确保您能够解释基本的数据科学算法。

机器学习算法

http://www.acheronanalytics.com/acheron-blog/brilliant-explanation-of-a-decision-tree-algorithms
https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47
https://setosa.io/ev/principal-component-analysis/
https://machinelearningmastery.com/boosting-and-adaboost-for-machine-learning/
http://horicky.blogspot.com/2009/05/machine-learning-probabilistic-model.html
http://horicky.blogspot.com/2009/11/machine-learning-with-linear-model.html
https://elitedatascience.com/dimensionality-reduction-algorithms

概率和统计
在大型科技公司,偶然被问到一个概率或统计问题是很常见的。虽然这些问题并不一定需要复杂的数学运算,但如果你还没有考虑到独立和相关的概率,那么最好复习一下基本的公式。
下面是一些基本概念的文章列表
bias-variance trade-off:
https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229
混淆矩阵(confision matrx):
https://www.dataschool.io/simple-guide-to-confusion-matrix-terminology/
ROC曲线:
https://www.dataschool.io/roc-curves-and-auc-explained/
P-value:
https://www.khanacademy.org/math/ap-statistics/tests-significance-ap/idea-significance-tests/v/p-values-and-significance-tests
斯皮尔曼相关性:
http://www.statstutor.ac.uk/resources/uploaded/spearmans.pdf
正态分布问题:z scole:
https://www.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/z-scores/v/ck12-org-normal-distribution-problems-z-score?modal=1

产品及实验设计
产品感是数据科学家的一项重要技能。知道如何衡量新产品以及为什么可以帮助确定一个产品是否表现良好。有趣的是,有时某些指标按照您希望的方式进行可能并不总是好的。人们花更多时间在你的网站上的原因可能是因为网页加载时间更长或其他面临类似问题。这就是为什么度量很复杂,而度量的内容很重要的原因。
用户参与度指标:
https://mixpanel.com/topics/important-user-engagement-metrics-apps/
A / B测试指南:
https://cxl.com/AB-Testing-Guide-ConversionXL.pdf
度量主题:
https://www.productschool.com/blog/product-management-2/interview/answering-metrics-interview-question-product-management/

算法和数据结构
下图总结了一些常见的数据结构:


SQL
一般来说,至少会有一次针对SQL的采访。此外,面试官可能会带你经历开发产品的整个过程,选择要跟踪的指标,然后查询该指标的有效性。下面是一些leetcode问题清单:
旅行和用户:
https://leetcode.com/problems/trips-and-users/
体育馆的人流:
https://leetcode.com/problems/human-traffic-of-stadium/
部门前三名:
https://leetcode.com/problems/department-top-three-salaries/
交换座位:
https://leetcode.com/problems/exchange-seats/
总结
技术面试可能很难。无论是软件工程师、数据工程师还是数据科学家。我们希望这个学习指南能帮助你跟踪你的进步!
·END·
本文分享自 Python与机器学习之路 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!