【数据】数据科学面试问题集二

笔者邀请您,先思考:

1 您在面试数据的工作,遇到什么数据科学面试题?

数据科学面试问题集一

  • 1 您将在时间序列数据集上使用什么交叉验证技术?
  • 2 什么是逻辑回归? 或者在最近使用逻辑回归时说明一个例子。
  • 3 您怎么理解“正态分布”?
  • 4 什么是Box Cox转换?
  • 5 您将如何确定聚类算法中的聚类数量?
  • 6 什么是深度学习?
  • 7 什么是循环神经网络(RNN)?
  • 8 机器学习与深度学习有什么区别?
  • 9 什么是强化学习?
  • 10 什么是选择偏差?
  • 11 解释正规化是什么以及它为什么有用。
  • 12 什么是TF / IDF矢量化?
  • 13 什么是推荐系统?
  • 14 回归和分类ML技术有什么区别?
  • 15 如果你的机器有4GB内存,而你想在10GB数据集上训练模型。 你会如何解决这个问题。 到目前为止,您在机器学习/数据科学体验中是否遇到过这种问题?

1 您将在时间序列数据集上使用什么交叉验证技术?

您应该意识到时间序列不是随机分布数据这一事实,它本质上是按照时间顺序排序的,因而不使用K-折交叉验证。

在时间序列数据的情况下,您应该使用像前向链接这样的技术 - 您将在过去的数据模型中查看前向数据。

折叠1:训练[1],测试[2]

折叠1:训练[1 2],测试[3]

折叠1:训练[1 2 3],测试[4]

折叠1:训练[1 2 3 4],测试[5]

2 什么是逻辑回归? 或者在最近使用逻辑回归时说明一个例子。

Logistic回归通常被称为logit模型,它是一种从预测变量的线性组合预测二元结果的技术。 例如,如果你想预测一个特定的政治领导人是否会赢得选举。 在这种情况下,预测的结果是二元的,即0或1(赢/输)。 这里的预测变量将是特定候选人竞选活动花费的金额,竞选活动花费的时间等。

3 您怎么理解“正态分布”?

数据通常以不同的方式分布,偏向左侧或右侧,或者全部混乱。 然而,有可能数据围绕一个中心值分布,没有任何左偏或右偏,并以钟形曲线的形式达到正态分布。 随机变量以对称钟形曲线的形式分布。

4 什么是Box Cox转换?

回归分析的因变量可能不满足普通最小二乘的一个或多个回归假设。残差可能随着预测的增加或随偏态分布而变化。 在这种情况下,有必要对响应变量进行变换,以使数据满足所需的假设条件。 Box cox转换是一种将非正态因变量转换为正常形状的统计技术。 如果给定的数据不满足正态,但是大部分统计技术都假设正态化。 应用boxcox转换意味着您可以运行更多的测试。

Box Cox变换是一种将非正态因变量转换为正态形状的方法。 对于许多统计技术来说,正态性是一个重要的假设,如果您的数据不满足正态分布,应用Box-Cox意味着您可以运行更多的测试。 Box Cox转型以统计学家George Box和David Roxbee Cox爵士的名字命名,他们在1964年的论文中合作并开发了这项技术。

5 您将如何确定聚类算法中的聚类数量?

虽然聚类算法没有指定,但是这个问题通常会参考K-Means聚类,其中“K”定义聚类的数量。 例如,下图显示了三个不同的组。

在簇内平方和通常用于解释群集内的同质性。 如果您根据聚类数量绘制WSS您将得到如下所示的图。 该图通常称为Elbow Curve。

上图中的红色圆圈点数,即群集数量= 6是在WSS中没有看到递减的点。 这一点被称为转折点,在K-Means中被视为K.这是广泛使用的方法,但很少数据科学家也首先使用分层聚类来创建树状图并从中识别不同的组。

6 什么是深度学习?

深度学习是受人脑神经网络结构和功能启发的机器学习的子领域。 在线性回归,支持向量机,神经网络等机器学习算法中,我们有很多算法,深度学习只是神经网络的扩展。 在神经网络中,我们考虑了少量的隐藏层,但是当涉及到深度学习算法时,我们会考虑大量隐藏latyers来更好地理解输入输出关系。

7 什么是循环神经网络(RNN)?

循环神经网络是一类人工神经网络,用于识别时间序列,股票市场和政府机构等数据序列中的模式。要理解循环神经网络,首先必须了解前馈网络的基本知识。RNN和前馈都是以它们传递信息的方式命名的,这些信息是在网络节点上执行的一系列数学运算。 一个节点直接提供信息(从不接触相同的节点两次),而另一个节点则循环它,而后者被称为循环性的。

另一方面,循环性网络不仅将他们所看到的当前输入示例作为他们的输入,而且还将他们以前所见的输入示例作为输入。图底部的BTSXPE表示当前时刻的输入示例,而上下文单元表示前一时刻的输出。在时间t-1达到的递归神经网络的决定会影响它在时间t达到的决定。所以循环性网络有两个输入源,现在和最近的过去,这两个输入源组合起来决定它们如何响应新数据,就像我们在生活中一样。

它们产生的错误将通过反向传播返回并用于调整它们的权重,直到错误不能再降低。请记住,循环性网络的目的是准确分类顺序输入。我们依靠误差和梯度下降的反向传播来做到这一点。

前馈网络中的反向传播从最终误差向后移动,通过每个隐藏层的输出,权重和输入,通过计算它们的偏导数来指定这些权重对部分误差的影响 - ∂E/∂w或它们的比率之间的关系的变化。那些衍生物然后被我们的学习规则,梯度下降,来调整权重向上或向下,无论哪个方向减少错误。

经常性网络依赖于通过时间反向传播的扩展,即BPTT。在这种情况下,时间可以简单地表达为一个明确的,有序的一系列计算,将一个时间步与下一个时间步链接起来,这是所有后向传播都需要的。

8 机器学习与深度学习有什么区别?

机器学习: 机器学习是计算机科学的一个领域,它使计算机无需明确编程即可学习。 机器学习可以分为以下三类。 监督机器学习, 无监督机器学习, 强化学习 深度学习: 深度学习是机器学习的一个子领域,涉及受大脑结构和功能(称为人工神经网络)启发的算法。

9 什么是强化学习?

强化学习

强化学习正在学习如何做,以及如何将环境映射到行动。 最终结果是最大化数字奖励信号。 学习者没有被告知要采取什么行动,而是必须发现哪种行为会产生最大的回报。强化学习的灵感来自人类的学习,它是基于奖励/惩罚机制。

10 什么是选择偏差?

选择偏差是通过选择个体,群体或数据进行分析而引入的偏差,以便不会实现适当的随机化,从而确保获得的样本不代表要分析的群体。 它有时被称为选择效应。 “选择偏差”这个短语通常是指采样方法导致的统计分析失真。 如果不考虑选择偏差,那么研究的一些结论可能不准确。

11 解释正规化是什么以及它为什么有用。

正则化是为了防止过度拟合而向模型添加调整参数以引起平滑度的过程。 这通常是通过向现有的权重向量乘以常数来完成的。 这个常数通常是L1(Lasso)或L2(ridge)。 然后,模型预测应该使正则化训练集上计算的损失函数最小化。

12 什么是TF / IDF矢量化?

tf-idf是词频 - 逆文档频率的缩写,是一个数字统计量,旨在反映词汇对集合或语料库中文档的重要程度。 它通常用作信息检索和文本挖掘的权重因子。 tf-idf值与单词在文档中出现的次数成比例地增加,但被语料库中单词的频率所抵消,这有助于调整一些单词通常出现频率很高的事实。

13 什么是推荐系统?

信息过滤系统的一个子类,旨在预测用户对产品的偏好或评级。 推荐系统广泛应用于电影,新闻,研究文章,产品,社交标签,音乐等。

14 回归和分类ML技术有什么区别?

回归和分类机器学习技术都属于监督机器学习算法。在有监督的机器学习算法中,我们必须使用带标记的数据集来训练模型,而训练时我们必须明确地提供正确的标签,算法试图从输入到输出学习模式。 如果我们的标签是离散值,那么它就会出现分类问题,例如A,B等,但是如果我们的标签是连续值,那么这将是一个回归问题,例如1.23,1.333等。

15 如果你的机器有4GB内存,而你想在10GB数据集上训练模型。 你会如何解决这个问题。 到目前为止,您在机器学习/数据科学体验中是否遇到过这种问题?

首先,你必须问问你想训练哪种ML模型。 对于神经网络:使用Numpy数组的批量大小将起作用。 步骤:

  • 将整个数据加载到Numpy数组中。 Numpy数组具有创建完整数据集映射的属性,它不会将完整的数据集加载到内存中。
  • 您可以将索引传递给Numpy数组以获取所需的数据。
  • 使用这些数据传递给神经网络。
  • 有小批量。 对于SVM:部分适合将起作用 步骤:
  1. 将一个大数据集划分一些小数据集
  2. 使用SVM的partialfit方法,它需要完整数据集的子集。
  3. 对其他子集重复步骤2。

您有什么见解,请留言。

原文链接: https://nitin-panwar.github.io/Top-100-Data-science-interview-questions/

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2018-05-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

综述卷积神经网络论文:从基础技术到研究前景

过去几年来,计算机视觉研究主要集中在卷积神经网络(常简称为 ConvNet 或 CNN)上。这些工作已经在广泛的分类和回归任务上实现了新的当前最佳表现。相对而言...

2230
来自专栏华章科技

给初学者的深度学习简介

深度学习是计算机领域中目前非常火的话题,不仅在学术界有很多论文,在业界也有很多实际运用。本篇博客主要介绍了三种基本的深度学习的架构,并对深度学习的原理作了简单的...

1494
来自专栏专知

【干货】基于注意力机制的神经匹配模型用于短文本检索

【导读】在基于检索的问答系统中,很重要的一步是将检索到的答案进行排序得到最佳的答案。在检索到的答案比较短时,对答案进行排序也成为了一个难题。使用深度学习的方法,...

7728
来自专栏机器之心

就喜欢看综述论文:情感分析中的深度学习

5929
来自专栏AI科技大本营的专栏

「数据科学家」必备的10种机器学习算法

编译 | 嗯~是阿童木呀、KABUDA、EVA 可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,...

2925
来自专栏华章科技

94页论文综述卷积神经网络:从基础技术到研究前景

导读:卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解。近日,约克大学电气工程与计算机科学系的 ...

792
来自专栏目标检测和深度学习

「数据科学家」必备的10种机器学习算法

可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,其中,X =某种算法;而其他一些人则是“能够在适...

2805
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 14 - 交叉熵损失函数——防止学习缓慢

通过上一篇 13 驯兽师:神经网络调教综述,对神经网络的调教有了一个整体印象,本篇从学习缓慢这一常见问题入手,引入交叉熵损失函数,并分析它是如何克服学习缓慢问...

4206
来自专栏专知

【干货】深度学习中的数学理解— 教你深度学习背后的故事

【导读】如今,深度学习在各项任务中所向披靡,比如图像识别,语音处理和自然语言处理。但是,深度学习的理论探讨却比应用滞后好几个数量级,一方面是做应用马上能见效,然...

3027
来自专栏编程

python常用可视化技巧

向AI转型的程序员都关注了这个号 大数据挖掘DT数据分析 公众号: datadw 我们在对数据进行预处理时,常常需要对数据做一些可视化的工作,以便能更清晰的认...

2369

扫码关注云+社区

领取腾讯云代金券