笔者邀请您,先思考:
1 您在面试数据的工作,遇到什么数据科学面试题?
数据科学也被称为数据驱动型决策,是一个跨学科领域,涉及以各种形式从数据中提取知识的科学方法,过程和系统,并基于这些知识进行决策。 数据科学家不应仅仅根据他/她对机器学习的知识进行评估,而且他/她也应该具有良好的统计专业知识。 我将尝试从非常基础的数据科学入手,然后慢慢转向专家级。 所以让我们开始吧。
1.有监督和无监督机器学习有什么区别?
监督机器学习: 监督机器学习需要训练标记数据。
无监督机器学习: 无监督机器学习不需要标记数据。
偏差: “由于过度简化了机器学习算法,偏差是在您的模型中引入的错误。”它可能导致欠拟合。当你训练你的模型时,模型会做出简化的假设,使目标函数更易于理解。 低偏差机器学习算法 - 决策树,k-NN和SVM 高偏差机器学习算法 - 线性回归,Logistic回归
方差: “由于复杂的机器学习算法导致模型中引入了误差,您的模型也会从训练数据集中学习噪声,并在测试数据集上执行错误。”它会导致高灵敏度和过度拟合。 通常,当你增加模型的复杂性时,由于模型中偏差较小,你会看到误差减少。但是,这只发生在特定的点。随着你继续让你的模型变得更加复杂,你最终会过度拟合你的模型,因此你的模型将开始承受高方差。
偏差与方差平衡 任何有监督的机器学习算法的目标是具有低偏差和低方差以实现良好的预测性能。 k最近邻算法具有低偏差和高方差,但是可以通过增加k的值来改变权衡,这增加了对预测有贡献的邻居数量,并且反过来增加了模型的偏差。 支持向量机算法具有低偏差和高方差,但是可以通过增加影响训练数据中允许的边缘违规次数的C参数来改变权衡,这增加了偏差但减小了方差。 无法避免机器学习中偏差和方差之间的关系。 增加偏差会降低方差。 增加方差会减少偏差。
“梯度爆炸是一个问题,在训练过程中,大量梯度误差累积以导致神经网络模型权重的非常大的更新。”极端情况下,权重的值可能变得很大以致溢出并导致NaN值。 这会导致您的模型不稳定,无法从您的训练数据中学习。 现在我们来了解什么是梯度。 梯度: 梯度是在训练神经网络时计算的方向和大小,用于以正确的方向和正确的数量更新网络权重。
混淆矩阵是一个2X2表,其中包含由二进制分类器提供的4个输出。 诸如误差率,准确性,特异性,灵敏度,精密度和召回率等各种测量方法都是从中推导出来的。 混淆矩阵
用于性能评估的数据集称为测试数据集。 它应该包含正确的标签和预测标签。
如果二元分类器的性能是完美的,预测标签将完全相同。
预测标签通常与真实世界场景中观察到的部分标签相匹配。
二元分类器可以将测试数据集的所有数据实例预测为阳性或阴性。 这产生了四个结果 - 真阳性(TP) - 正确的阳性预测 假阳性(FP) - 错误的阳性预测 真阴性(TN) - 正确的阴性预测 假阴性(FN) - 错误的阴性预测
从混淆矩阵导出的基本度量 错误率=(FP + FN)/(P + N) 准确度=(TP + TN)/(P + N) 灵敏度(召回率或真阳性率)= TP / P 特异性(真阴性率)= TN / N 精度(正向预测值)= TP /(TP + FP) F分数(精度和召回率的谐波平均值)=(1 + b)(PREC.REC)/(b ^ 2PREC + REC)其中b通常是0.5,1,2。
ROC曲线是各种阈值下真阳性率和假阳性率之间对比的图形表示。 它通常被用作敏感度(真正的阳性率)和假阳性率之间折衷的代理。
当抽取的样本不能代表所分析的总体时,就会发生选择新偏差。
SVM代表支持向量机,它是一种可用于回归和分类的监督机器学习算法。 如果训练数据集中有n个特征,则SVM会尝试将其绘制在n维空间中,每个特征的值都是特定坐标的值。 SVM使用超平面根据提供的内核函数分离出不同的类。
在上图中,我们看到,较细的线标记从分类器到称为支持向量(变暗的数据点)的最近数据点的距离。 两条细线之间的距离称为边距。
SVM中有四种类型的内核。
决策树是一种主要用于回归和分类的监督机器学习算法。它将数据集分解成越来越小的子集,同时逐步开发相关的决策树。 最终的结果是一个带有决策节点和叶节点的树。 决策树可以处理类别和数值数据。
构建决策树的核心算法叫做ID3。 ID3使用Enteropy和Information Gain来构建决策树。 熵 决策树是从根节点自上而下构建的,涉及将数据划分为同质子集。 ID3使用enteropy来检查样本的同质性。 如果样本是完全同质的,那么熵是零,如果样本是等分的,则它的熵是1。
信息收益 信息增益基于数据集在属性上分割后熵的减少。 构建决策树都是为了找到返回最高信息增益的属性。
当我们删除决策节点的子节点时,这个过程被称为修剪或分裂的相反过程。
集成是结合不同学习者(单独模型)的艺术,以便改善模型的稳定性和预测能力。 集合学习有许多类型,但下面提到的两种是最受欢迎的集成学习技术。
Bagging
Bagging试图在小样本中实现类似的学习者,然后采取所有预测的均值。 在广义bagging中,您可以针对不同样本使用不同的学习者。 正如你所期望的那样,这可以帮助我们减少方差错误。
Boosting
Boosting是一种迭代技术,根据后一个分类调整观察的权重。 如果观察结果被错误地分类,它会试图增加观察的权重,反之亦然。 一般而言,提升会减少偏差,并建立强大的预测模型。 但是,他们可能会过度训练数据。
随机森林是一种能够执行回归和分类任务的多功能机器学习方法。 它也用于缩小维度,处理缺失值,异常值。它是一种集合学习方法,其中一组弱模型组合形成强大的模型。 在随机森林中,我们种植多棵树,而不是一棵树。 要根据属性对新对象进行分类,每棵树都会给出一个分类。 森林选择得票最多的分类(在森林中的所有树上),并且在回归的情况下,它取得不同树输出结果的平均值。
您有什么见解,请留言。
原文链接: https://nitin-panwar.github.io/Top-100-Data-science-interview-questions/
版权声明:作者保留权利,严禁修改,转载请注明原文链接。