首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大四学生整理:一份“不完美”的数据科学问答清单

大四学生整理:一份“不完美”的数据科学问答清单

作者头像
用户1737318
发布2018-06-05 11:39:06
4280
发布2018-06-05 11:39:06
举报
文章被收录于专栏:人工智能头条人工智能头条

翻译 | shawn

编辑 | 阿司匹林

出品 | 人工智能头条(公众号ID:AI_Thinker)

【人工智能头条导读】随着人工智能的日益火热,数据科学正在变得越来越重要。数据科学的初学者常常会碰到各种概念型的面试问题,为此,加拿大 Ryerson University 一名大四学生 Jae Duk Seo 整理了一份面试问题清单,并根据自己所掌握的知识给出了回答。

要注意的是,Jae Duk Seo 并没有确保每一个答案都是尽善尽美的,但是他列出了很多参考资料,然后给出自己的思考,有时还会对自己的原答案进行纠正。

为什么我们要把这样一篇文章推荐给大家?

因为我们正变得越辣越懒。

熟悉我们的读者肯定知道,我们经常会推荐一些免费的开源项目、学习资源等,但是大部分人都是先马再看。我们私下做的小调查发现,很多读者收藏后,并没有再花时间去学习。而我们之前整理了一些大公司的面试题,希望大家能够积极参与,但是收到的反馈也寥寥无几。

我们希望这样一篇“不够完美”的文章能够激发大家参与的积极性,错了不要紧,重要的从错误中学习。

因此,不管你是否只知道某个问题的答案,也不管你的答案正确与否,我们都欢迎大家积极留言,从讨论中学习。

以下内容由人工智能头条编译:

▌1. 什么是特征向量?

我对特征向量的理解目前非常有限。举例来说,使用标准的卷积神经网络(CNN)和全连接神经网络(FNN)构建一个分类器,CNN 的作用是从图像中提取高级特征(从边缘和角落到脸部等)。在从 CNN 到 FNN 过渡的过程中,我们通常会将图像向量化,得出的向量就称为特征向量。

来源:Research Gate评论

让我惊讶的是,原始的像素值(pixel values)也可以被当作为特征向量。但是这是讲得通的。接下来我们尝试做一些编程工作:使用 MNIST 数据集创造一个 HOG 特征向量(如果有人想知道 HOG 特征是什么,请点击链接阅读此文https://www.learnopencv.com/histogram-of-oriented-gradients/)。

左图→图像3的可视化HOG特征

右图→图像6的可视化HOG特征

如上图所示,每张图像的 HOG 特征向量长度都为 2048,当我们将这些向量可视化后,它们就会变成右图。

▌2. 解释构建决策树的步骤

最近我学习了二叉查找树(Binary Search Tree),虽然我不知道怎么回答这个问题,但是我可以可以尝试给出一些建议:从不同类型的用户那里收集不同结果的信息,然后以树状结构标绘二分答案(binary answers),直到标绘完所有信息。

来源:https://www.smartdraw.com/decision-tree/

我对我搜索到的答案不是十分满意,但是我找到了一个教你如何在商业环境中如何绘制决策的YouTube 教程。视频很老,但是很有帮助。

视频地址: https://www.youtube.com/channel/UCUam9zhEElOl9NXSesyyjtA

▌3.什么是“根本原因分析”(root cause analysis)?

我认为“root”(根本)这个词是指基础的东西,当我们想指出某件事的核心时我们会用到这个词。因此,我认为“根本原因分析”是搞清某个问题核心原因的过程。

来源:维基百科

不过,“根本原因分析”并不只是确定核心原因的过程,它还被用于防止同类型的问题再次发生。最终我找到了一篇论文《根本原因分析方法》(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1292997/pdf/bumc0014-0154.pdf),感兴趣的读者可以点击阅读。

▌4.什么是逻辑回归?

我认为“回归”这个词指的是预测。依我看,线性回归就是找出用来预测未来结果(例如房价)的最佳直线。“逻辑”的话,我只能想到 sigmoid 函数。逻辑回归结合“逻辑”和“回归”,我认为它是对离散值的预测,而不是对连续值的预测。

来源:https://www.statisticssolutions.com/what-is-logistic-regression/

来源:维基百科

总的来说,逻辑回归是预测分类值的过程,预测的可能是简单的二分类预测值,也可能是复杂的多分类预测值。想知道指数函数和逻辑函数有什么不同的读者,点击此链接☟☟

http://wmueller.com/precalculus/families/1_80.html

来源:http://xaktly.com/LogisticFunctions.html

▌5.什么是推荐系统?

YouTube 的视频推荐板块就是一个很好的推荐系统。算法(很多人将其称为 AI)获取用户过去 2 周或 4 周内看过的视频列表,然后搜索相似内容的视频推荐给用户。在某种程度上,这是一个逻辑回归,因为算法试图预测用户接下来最可能观看的视频类别。

来源:维基百科

信息过滤系统这个词我从没听说过,想不到推荐系统只是信息过滤系统的一部分。接下来让我们尝试构建一个简单的推荐系统。

紫色、绿色、黄色圆点 →特定用户喜欢的三种冰淇淋口味

红色圆点 →未知任何历史信息的新用户

假设我们有一家冰淇淋店,在二维网格上用坐标表示我们的每位顾客。x 坐标值在 [0–6] 区间,y 坐标值在 [0–7.5] 区间的顾客喜欢紫色冰淇淋。如果来了一位坐标值在 [2,7.5], [8,15.5] 和 [20, 11] 区间的顾客,我们应该向他推荐哪种口味的冰淇淋?我的方法很简单,构建一个K-近邻算法(KNN)(近邻值为3),让算法预测这位顾客喜欢哪种口味的冰淇淋。

▌6. 梯度下降法是否总是会在相近点收敛?

不是,梯度下降也会收敛到局部最小点,为了防止这种情况经常发生,激活函数必须是单调函数。

详细解释见这篇文章 https://towardsdatascience.com/google-deepmind-deep-learning-for-medical-image-segmentation-with-interactive-code-4634b6fd6a3a

依我愚见,上图是对这个问题最好的回答。

▌7. A/B测试的目的是什么?

每当我回答采访问题时,似乎总有个问题和 A/B 测试有关。简单来说,A/B 测试的目的是得出:给定环境中存在一处不同时主体(subject)反应会有什么变化。

来源:维基百科

A/B测试(也称分离测试)是比较两个版本的网页,看哪个版本更好。向类似的访问者同时展示两个变量,对两个版本的网页进行比较。转化率更好的版本获胜!(来源:https://vwo.com/ab-testing/ )

上图是网页 A/B 测试的详细定义,但是我认为这个定义可以拓展到不同的行业(例如医药业或物流业等)中。

▌8. 线性模型的缺点有什么?

线性模型的一个显而易见的优点是简单。如果我们使用 Y = aX + b 这个方程构建一个模型,构建前我们就知道这个模型有多简单。但是,我认为简单也可以成为线性模型的一个缺点。因为线性模型的简单性,我们无法用它对复杂的场景建模。

线性模型的很多缺点我没有提到,比如对异常点很敏感,有过度拟合的倾向等。我认为我的答案是错误的,因为我们可以使用更加高级的多项式回归模型预测更加复杂的情景,这不是线性回归模型的一个缺点。

原文链接: https://towardsdatascience.com/my-take-on-data-scientist-interview-questions-part-1-6df22252b2e8

如需转载,请联系小编微信1092722531

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档