专栏首页数据科学与人工智能【数据】数据科学面试问题集二

【数据】数据科学面试问题集二

笔者邀请您,先思考:

1 您在面试数据的工作,遇到什么数据科学面试题?

数据科学面试问题集一

  • 1 您将在时间序列数据集上使用什么交叉验证技术?
  • 2 什么是逻辑回归? 或者在最近使用逻辑回归时说明一个例子。
  • 3 您怎么理解“正态分布”?
  • 4 什么是Box Cox转换?
  • 5 您将如何确定聚类算法中的聚类数量?
  • 6 什么是深度学习?
  • 7 什么是循环神经网络(RNN)?
  • 8 机器学习与深度学习有什么区别?
  • 9 什么是强化学习?
  • 10 什么是选择偏差?
  • 11 解释正规化是什么以及它为什么有用。
  • 12 什么是TF / IDF矢量化?
  • 13 什么是推荐系统?
  • 14 回归和分类ML技术有什么区别?
  • 15 如果你的机器有4GB内存,而你想在10GB数据集上训练模型。 你会如何解决这个问题。 到目前为止,您在机器学习/数据科学体验中是否遇到过这种问题?

1 您将在时间序列数据集上使用什么交叉验证技术?

您应该意识到时间序列不是随机分布数据这一事实,它本质上是按照时间顺序排序的,因而不使用K-折交叉验证。

在时间序列数据的情况下,您应该使用像前向链接这样的技术 - 您将在过去的数据模型中查看前向数据。

折叠1:训练[1],测试[2]

折叠1:训练[1 2],测试[3]

折叠1:训练[1 2 3],测试[4]

折叠1:训练[1 2 3 4],测试[5]

2 什么是逻辑回归? 或者在最近使用逻辑回归时说明一个例子。

Logistic回归通常被称为logit模型,它是一种从预测变量的线性组合预测二元结果的技术。 例如,如果你想预测一个特定的政治领导人是否会赢得选举。 在这种情况下,预测的结果是二元的,即0或1(赢/输)。 这里的预测变量将是特定候选人竞选活动花费的金额,竞选活动花费的时间等。

3 您怎么理解“正态分布”?

数据通常以不同的方式分布,偏向左侧或右侧,或者全部混乱。 然而,有可能数据围绕一个中心值分布,没有任何左偏或右偏,并以钟形曲线的形式达到正态分布。 随机变量以对称钟形曲线的形式分布。

4 什么是Box Cox转换?

回归分析的因变量可能不满足普通最小二乘的一个或多个回归假设。残差可能随着预测的增加或随偏态分布而变化。 在这种情况下,有必要对响应变量进行变换,以使数据满足所需的假设条件。 Box cox转换是一种将非正态因变量转换为正常形状的统计技术。 如果给定的数据不满足正态,但是大部分统计技术都假设正态化。 应用boxcox转换意味着您可以运行更多的测试。

Box Cox变换是一种将非正态因变量转换为正态形状的方法。 对于许多统计技术来说,正态性是一个重要的假设,如果您的数据不满足正态分布,应用Box-Cox意味着您可以运行更多的测试。 Box Cox转型以统计学家George Box和David Roxbee Cox爵士的名字命名,他们在1964年的论文中合作并开发了这项技术。

5 您将如何确定聚类算法中的聚类数量?

虽然聚类算法没有指定,但是这个问题通常会参考K-Means聚类,其中“K”定义聚类的数量。 例如,下图显示了三个不同的组。

在簇内平方和通常用于解释群集内的同质性。 如果您根据聚类数量绘制WSS您将得到如下所示的图。 该图通常称为Elbow Curve。

上图中的红色圆圈点数,即群集数量= 6是在WSS中没有看到递减的点。 这一点被称为转折点,在K-Means中被视为K.这是广泛使用的方法,但很少数据科学家也首先使用分层聚类来创建树状图并从中识别不同的组。

6 什么是深度学习?

深度学习是受人脑神经网络结构和功能启发的机器学习的子领域。 在线性回归,支持向量机,神经网络等机器学习算法中,我们有很多算法,深度学习只是神经网络的扩展。 在神经网络中,我们考虑了少量的隐藏层,但是当涉及到深度学习算法时,我们会考虑大量隐藏latyers来更好地理解输入输出关系。

7 什么是循环神经网络(RNN)?

循环神经网络是一类人工神经网络,用于识别时间序列,股票市场和政府机构等数据序列中的模式。要理解循环神经网络,首先必须了解前馈网络的基本知识。RNN和前馈都是以它们传递信息的方式命名的,这些信息是在网络节点上执行的一系列数学运算。 一个节点直接提供信息(从不接触相同的节点两次),而另一个节点则循环它,而后者被称为循环性的。

另一方面,循环性网络不仅将他们所看到的当前输入示例作为他们的输入,而且还将他们以前所见的输入示例作为输入。图底部的BTSXPE表示当前时刻的输入示例,而上下文单元表示前一时刻的输出。在时间t-1达到的递归神经网络的决定会影响它在时间t达到的决定。所以循环性网络有两个输入源,现在和最近的过去,这两个输入源组合起来决定它们如何响应新数据,就像我们在生活中一样。

它们产生的错误将通过反向传播返回并用于调整它们的权重,直到错误不能再降低。请记住,循环性网络的目的是准确分类顺序输入。我们依靠误差和梯度下降的反向传播来做到这一点。

前馈网络中的反向传播从最终误差向后移动,通过每个隐藏层的输出,权重和输入,通过计算它们的偏导数来指定这些权重对部分误差的影响 - ∂E/∂w或它们的比率之间的关系的变化。那些衍生物然后被我们的学习规则,梯度下降,来调整权重向上或向下,无论哪个方向减少错误。

经常性网络依赖于通过时间反向传播的扩展,即BPTT。在这种情况下,时间可以简单地表达为一个明确的,有序的一系列计算,将一个时间步与下一个时间步链接起来,这是所有后向传播都需要的。

8 机器学习与深度学习有什么区别?

机器学习: 机器学习是计算机科学的一个领域,它使计算机无需明确编程即可学习。 机器学习可以分为以下三类。 监督机器学习, 无监督机器学习, 强化学习 深度学习: 深度学习是机器学习的一个子领域,涉及受大脑结构和功能(称为人工神经网络)启发的算法。

9 什么是强化学习?

强化学习

强化学习正在学习如何做,以及如何将环境映射到行动。 最终结果是最大化数字奖励信号。 学习者没有被告知要采取什么行动,而是必须发现哪种行为会产生最大的回报。强化学习的灵感来自人类的学习,它是基于奖励/惩罚机制。

10 什么是选择偏差?

选择偏差是通过选择个体,群体或数据进行分析而引入的偏差,以便不会实现适当的随机化,从而确保获得的样本不代表要分析的群体。 它有时被称为选择效应。 “选择偏差”这个短语通常是指采样方法导致的统计分析失真。 如果不考虑选择偏差,那么研究的一些结论可能不准确。

11 解释正规化是什么以及它为什么有用。

正则化是为了防止过度拟合而向模型添加调整参数以引起平滑度的过程。 这通常是通过向现有的权重向量乘以常数来完成的。 这个常数通常是L1(Lasso)或L2(ridge)。 然后,模型预测应该使正则化训练集上计算的损失函数最小化。

12 什么是TF / IDF矢量化?

tf-idf是词频 - 逆文档频率的缩写,是一个数字统计量,旨在反映词汇对集合或语料库中文档的重要程度。 它通常用作信息检索和文本挖掘的权重因子。 tf-idf值与单词在文档中出现的次数成比例地增加,但被语料库中单词的频率所抵消,这有助于调整一些单词通常出现频率很高的事实。

13 什么是推荐系统?

信息过滤系统的一个子类,旨在预测用户对产品的偏好或评级。 推荐系统广泛应用于电影,新闻,研究文章,产品,社交标签,音乐等。

14 回归和分类ML技术有什么区别?

回归和分类机器学习技术都属于监督机器学习算法。在有监督的机器学习算法中,我们必须使用带标记的数据集来训练模型,而训练时我们必须明确地提供正确的标签,算法试图从输入到输出学习模式。 如果我们的标签是离散值,那么它就会出现分类问题,例如A,B等,但是如果我们的标签是连续值,那么这将是一个回归问题,例如1.23,1.333等。

15 如果你的机器有4GB内存,而你想在10GB数据集上训练模型。 你会如何解决这个问题。 到目前为止,您在机器学习/数据科学体验中是否遇到过这种问题?

首先,你必须问问你想训练哪种ML模型。 对于神经网络:使用Numpy数组的批量大小将起作用。 步骤:

  • 将整个数据加载到Numpy数组中。 Numpy数组具有创建完整数据集映射的属性,它不会将完整的数据集加载到内存中。
  • 您可以将索引传递给Numpy数组以获取所需的数据。
  • 使用这些数据传递给神经网络。
  • 有小批量。 对于SVM:部分适合将起作用 步骤:
  1. 将一个大数据集划分一些小数据集
  2. 使用SVM的partialfit方法,它需要完整数据集的子集。
  3. 对其他子集重复步骤2。

您有什么见解,请留言。

原文链接: https://nitin-panwar.github.io/Top-100-Data-science-interview-questions/

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren),作者:数据人陆勤

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 好书|第一章:The Machine Learning Landscape

    【需要英文电子书籍和配套的EPUB阅读器的朋友,请把这篇文章分享到您的朋友圈,添加我的个人微信:luqin360,截图给我,我会发给您;若是需要一起参与读书和讨...

    陆勤_数据人网
  • 如何学习和应用机器学习?

    人工智能、机器学习和深度学习,已成为能够给我们工作、生活和思维带来变革的认知和科技。 面对海量数据,利用人工智能、机器学习和深度学习创造价值是一件既有挑战又有意...

    陆勤_数据人网
  • 简明数据科学(1):啥啥啥?这都是啥?

    原文:Data Science Simplified Part 1: Principles and Process 译者:杨德杰 2006年,英国数学家、Tes...

    陆勤_数据人网
  • 什么是机器学习?

    输入“什么是机器学习?” 进入Google搜索将打开一个Pandora的论坛,学术研究和虚假信息框,而本文的目的是在我们的机器学习研究人员小组的直接帮助下简化机...

    陈哈哈
  • 【应用】机器学习商业应用入门及七个实例

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

    小莹莹
  • 观点 | 重新思考机器学习:大数据消耗已无必要

    翻译 | AI科技大本营(rgznai100) 参与 | Shawn,焦燕 导读 机器学习炒了这么这么多年,为什么我们还没看到企业有开发出任何这方面应用?本文会...

    AI科技大本营
  • 2019年数据科学最强入门指南

    导读:学 Excel 还是 R、Python?机器学习怎么入门?数据工程师和数据科学家有什么区别?听听美国 IT 大牛的建议。

    华章科技
  • 业界 | 摩根大通报告12个亮点总结:金融领域的机器学习工具有哪些?

    选自eFinancialCareers 作者:Sarah Butcher 机器之心编译 参与:李泽南、吴攀 金融机构由于面临激烈的竞争压力,需要不断对自身结构...

    机器之心
  • 为何机器学习的黄金时代才刚刚来临

    虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了...

    机器学习AI算法工程
  • 为何机器学习的黄金时代才刚刚来临

    用户1737318

扫码关注云+社区

领取腾讯云代金券