首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

干货 | 数据科学岗位必备面经:17个热点问题如何回答?(一)

AI科技评论按:随着数据科学成为炙手可热领域,相关应聘岗位也多了起来。面试者们在准备应聘过程,往往会有一个疑问:面试官们会问些什么?应该如何回答?...如果你有一个大静态数据集,那么你应该随机分成训练/测试数据测试数据分布应该类似于训练数据。 b)协变量 这里数据不是静态,一部分人口用作训练数据,另一个部分用于测试。 ?...一个提出解决方案是应用统计测试来确定分类器使用目标类和关键变量概率是否显着不同,如果是,则使用新数据重新训练模型。 c)非固定环境 无论是由于时间或空间变化,培训环境与测试不同。...如果超过两组呢? Prasad Pore 答案: 二进制分类涉及基于诸如性别,年龄,位置等独立变量将数据分为两组,例如客户是否购买特定产品(是/否)。...由于目标变量不连续,二进制分类模型预测目标变量概率为Yes / No。 为了评估这样模型,使用称为混淆矩阵度量,也称为分类或相关矩阵。

95880

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)

1 软件下载和安装 在这个例子笔记本,需要keras R。由于它有许多需要下载和安装依赖,因此需要几分钟时间才能完成。请耐心等待!...2.1 加载MNIST数据集 这个数据集已经包含在keras/tensorflow安装,我们可以简单地加载数据集。加载数据集只需要不到一分钟时间。...input_matrix 3 卷积神经网络模型 在本节,我们将展示如何使用卷积神经网络(CNN)对MNIST手写数据集进行分类,将图像分为数字。...请注意,由于我们没有使用GPU,需要几分钟时间来完成。如果在GPU上运行,训练时间可以大大减少。 3.3.3 训练模型 现在,我们可以用处理过数据来训练模型。...每个epochs历史记录都可以被保存下来以追踪进度。请注意,由于我们没有使用GPU,需要几分钟时间来完成。在等待结果时,请耐心等待。如果在GPU上运行,训练时间可以大大减少。

1.3K30
您找到你想要的搜索结果了吗?
是的
没有找到

在不同任务应该选择哪种机器学习算法?

如果标签来自无序有限数量,那么它就是分类。 ? 无监督学习 在无监督学习,我们关于对象信息知道地较少,特别是,训练集是没有标签。那么,我们现在目标是什么?...强化学习是机器学习一个领域,关注是软件agent应该如何在某些环境采取行动,以最大化累积奖励概念。 ? 想象一下,你是一个机器人,在一个陌生地方,你可以完成活动并从所处环境获得奖励。...2.逻辑回归 不要将这些分类算法与在标题中使用“回归”回归方法混淆。逻辑回归执行二进制分类,因此标签输出是二进制。...在分类,我们使用交叉熵和Gini指数。在回归树,我们最小化了下降区域目标预测变量和我们分配给它值之间平方误差总和。 ? 我们为每个节点递归地完成这个过程,并在遇到停止条件时完成。...逻辑回归:是一种最简单非线性分类器,具有参数和非线性函数(sigmoid函数)线性组合,用于二进制分类。 决策树:通常类似于人们决策过程,并且易于理解。

1.9K30

一个实例读懂监督学习:Python监督学习实战

---- ---- 在监督学习,我们从导入包含训练属性和标签数据集开始。监督学习算法将学习训练样本与目标变量之间关系,并应用所学关系对新输入数据进行分类(没有标签)。...▌分类: ---- ---- 医学研究人员例子为例,他们希望分析乳腺癌数据,来预测病人应该接受三种治疗方案哪一种。...这个数据分析任务被称为分类,在这个分类任务,构造模型或分类器用来预测类别标签呢:例如“治疗a”、“治疗B”或“治疗c”。 分类是一种预测问题,预测离散和无序类标签。...例如,你必须根据给定输入数据X来预测一个人收入。 在这里,目标变量是指我们需要预测未知变量,而连续(continuous)意思是说Y值是不间断预测收入是一个典型回归问题。...给定数据被分成一个训练数据集和一个测试数据集。 训练集具有特征标签,所以算法可以从这些有标签例子中学习。测试集没有任何标签,也就是说,你不知道预测结果是什么。

3.7K70

塔秘 | 极简Python带你探索分类与回归奥秘

在监督学习,我们首先导入包含训练属性和目标属性数据集。监督学习算法将学习训练样本和其目标变量之间关系,然后应用习得关系对无目标属性全新输入进行分类。...有几种方法都可以实现监督学习,我们将探索其中一些最常用方法。 基于给定数据集,机器学习问题将分为两类:分类和回归。如果给定数据同时具有输入(训练)值和输出(目标)值,那么属于分类问题。...如果数据集有着连续数值属性而没有任何目标标签,那么属于回归问题。 分类问题 让我们来举例说明。一名医学研究者希望通过分析乳腺癌数据来预测患者应该接受三种治疗方式哪一种。...然后,请使用 PIP 安装如下程序: 在下面的代码片段,我们调用几个 Pandas 方法来了解 IRIS 数据集属性。...这里目标变量是我们要预测未知变量,连续性指的是 Y 值之间不存在间隙(间断)。 预测收入是一个经典回归问题。

951120

TensorFlow2 keras深度学习:MLP,CNN,RNN

此模型适用于表格数据,即表格或电子表格数据,每个变量一列,每个变量一行。您可能需要使用MLP探索三个预测建模问题;它们是二进制分类,多分类和回归。 让我们针对每种情况在真实数据集上拟合模型。...二进制分类MLP 我们将使用二进制(两类)分类数据集来演示用于二进制分类MLP。 该数据集涉及预测结构是否在大气或不给定雷达回波。 数据集将使用Pandas自动下载。...流行图像分类任务是MNIST手写数字分类涉及成千上万个手写数字,必须将其分类为0到9之间数字。 tf.keras API提供了便捷功能,可以直接下载和加载此数据集。...深度学习模型交叉熵损失学习曲线 如何保存和加载模型 训练和评估模型很棒,但是我们可能希望稍后使用模型而不必每次都对其进行重新训练。 这可以通过将模型保存到文件,然后加载并使用它进行预测来实现。...下面的示例定义了一个用于二进制分类预测问题小型MLP网络,在第一隐藏层和输出层之间具有批处理归一化层。

2.1K30

TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)

此模型适用于表格数据,即表格或电子表格数据,每个变量一列,每个变量一行。您可能需要使用MLP探索三个预测建模问题;它们是二进制分类,多分类和回归。 让我们针对每种情况在真实数据集上拟合模型。...二进制分类MLP 我们将使用二进制(两类)分类数据集来演示用于二进制分类MLP。 该数据集涉及预测结构是否在大气或不给定雷达回波。 数据集将使用Pandas自动下载。...流行图像分类任务是MNIST手写数字分类涉及成千上万个手写数字,必须将其分类为0到9之间数字。 tf.keras API提供了便捷功能,可以直接下载和加载此数据集。...这可以通过将模型保存到文件,然后加载并使用它进行预测来实现。 这可以通过使用模型上save()函数来保存模型来实现。稍后可以使用load_model()函数加载。...下面的示例定义了一个用于二进制分类预测问题小型MLP网络,在第一隐藏层和输出层之间具有批处理归一化层。

2.2K10

Kaggle入门介绍:通过竞赛磨练机器学习技能

目标是使用历史贷款申请数据来预测申请人是否会偿还贷款。...在训练期间,我们为模型提供了特征(描述贷款申请变量)以及标签(如果贷款得到偿还,则用二进制0表示,如果贷款没有得到偿还,则用1表示) 模型将学习从特征到标签映射标签。...阅读其他内核也可以帮助我们熟悉数据以及哪些变量是重要。 一旦我们理解了数据和问题,我们就可以开始为机器学习任务构建。...在Kaggle竞赛,一切都归结为单个数字,即测试数据指标。 虽然使用二进制分类任务准确性可能具有直观意义,但这是一个糟糕选择, 因为我们正在处理类不平衡问题。...建议让你对进行研究,或者阅读notebook解释。至少要知道更高越好,随机模型得分为0.5,完美模型得分为1.0。为了计算ROC AUC,我们需要根据概率而不是二进制0和1进行预测

1.5K10

如何提高机器学习项目的准确性?我们有妙招!

用例2:处理分类值 假设我们想要预测变量,例如推文数量,取决于以下两个变量:最活跃的当前新闻类型和活跃用户数。 在这种例子当中,最活跃当前新闻类型是一个分类特征。...在文章概述了一些解决方案: 1、我们可以删除彼此之间具有强相关性特征。你可以使用相关矩阵来确定所有自变量之间相关性。 2、我们还可以使用散布混合图来确定所有变量如何相互链接。...例如,在时间序列预测分析,我们可以从数据中提取趋势和季节性,然后将趋势和季节性作为单独特征提供,以预测我们目标变量。 用例6: 减少维度 场景:偶尔我们希望减少维度数量。...微调模型参数 微调机器学习预测模型是提高预测结果准确性关键步骤。在最近几年,写了很多文章来解释机器学习是如何工作,以及如何丰富和分解特征集以提高机器学习模型准确性。...X训练 - 训练自变量数据,也称为特征 X测试 - 自变量测试数据 Y训练 - 因变量训练数据 Y测试 - 因变量测试数据 例如,如果你基于温度和湿度预测瀑布体积,则水体积表示为Y(因变量),温度和湿度表示为

1.2K30

用于时间序列预测AutoML

挑战每个数据集都是表格数据,其特征主要有以下三种类型:Id(可以是多个特征或没有特征),时间戳(每个数据集只有一个时间戳),其他特征(数值或分类)以及预测目标。...在推理过程没有足够计算时间来优化此超参数(即,将其视为数值或分类),因此将它们全部都视为数值。 验证和基准模型 生成新功能后,将对基线模型进行训练。基准模型使用所有初始和创建功能。...还用不同种子测试了装袋和训练以减少预测差异,但是这些方法花费了很多时间,并且得分提高不足以包含在最终解决方案。...还测试了功率变换(扎根于目标和Box-Cox)以减少平稳性,但是没有将分数提高到足以包含在最终解决方案。 首先对每组参数进行验证,如果验证评分更好,则重新安装模型。...错误是不可避免,但是有一些注释,如果从一开始就使用它们,这些注释有很大帮助: 记录尽可能多有用信息:数据框列(训练和测试数据列顺序可能不同),数据类型(训练和测试数据数据类型可能不同)

1.8K20

如何通过交叉验证改善你训练数据集?

不要着急,或许你可以稍微不那么严肃去喝杯热水,在下面的文章,我会向你介绍整个机器学习过程如何对你模型建立评价指标,你只需要有python基础就可以了。...例如,如果变量 y 是具有值 0 和 1 二进制分类变量,并且有 10% 0和90%1,则 stratify=y 将确保随机拆分时,保证子数据集中具有 10% 0 和 90% 1。...就可以获得一个2 x 2混淆矩阵(因为垃圾邮件分类二进制分类),并返回一个涵盖上述所有指标的分类报告。 注意: 真实值作为第一个参数传递,预测值是第二个参数。 ?...K折交叉验证 首先需要向你介绍一条黄金准则:训练集和测试集不要混在一块。你第一步应该是隔离测试数据集,并将其仅用于最终评估。这样才能在训练集上执行交叉验证。 ?...顺便说一下,一旦您完成了评估并最终确认您机器学习模型,您应该重新训练最初被隔离测试数据,使用完整数据训练模型,能增加更好预测。 谢谢您阅读。

4.4K20

如何用Python处理分类和回归问题?附方法和代码

然后,监督学习算法学习训练样本和与之相关目标变量之间关系,并利用所学习到关系对全新输入(没有目标)进行分类。...如果给定数据同时具有输入(训练)值和输出(目标)值,则是一个分类问题;如果给定数据集属性是连续值且没有任何目标标签,则是一个回归问题。 分类: 有输出标签,这是猫还是狗?...▌分类 举个例子:一位医学研究人员想要分析乳腺癌数据,来预测患者应该接受三种治疗方案哪一种。...这个数据分析任务被称为分类构建一个模型或分类器来预测从属类别标签,比如:“治疗方案A”,“治疗方案B”或“治疗方案C”。 分类预测分类(离散、无序类标号,分为两个过程:学习和分类。...这里,目标变量指的是我们所关心预测未知变量,连续是指Y值之间不存在距离(不连续性)。 预测收入是一个典型回归问题。

93950

特征工程(四): 类别特征

另一方面,公司产业(石油,旅游,技术等)应该无法被比较,也就是类别特征。 大分类变量在交易记录特别常见。...此外,失踪数据可以编码为全零矢量,输出应该是整体目标变量平均值。 虚拟编码和效果编码不是多余。 他们产生独特和可解释模型。...特征哈希可以用于涉及特征内积模型矢量和系数,例如线性模型和核心方法。 一直证明在垃圾邮件过滤任务取得成功[Weinberger等,2009]。...bin-counting想法非常简单:而不是使用分类变量作为特征,而不是使用条件概率目标在该价值下。 换句话说,而不是编码身份分类值,计算该值和该值之间关联统计量我们希望预测目标。...因此需要O(k)空间,其中k是唯一值数量分类变量

3.2K20

【文章】机器学习模型训练全流程!

此外,如果Y包含定量值,那么数据集(由X和Y组成)可以用于回归任务,而如果Y包含定性值,那么数据集(由X和Y组成)可以用于分类任务。 2....根据目标变量(通常称为Y变量数据类型(定性或定量),我们要建立一个分类如果Y是定性)或回归(如果Y是定量)模型。...这样X、Y对构成了用于建立模型标签数据,以便学习如何从输入预测输出。 无监督学习:是一种只利用输入X变量机器学习任务。这种 X 变量是未标记数据,学习算法在建模时使用是数据固有结构。...强化学习:是一种决定下一步行动方案机器学习任务通过试错学习来实现这一目标,努力使回报最大化。 5.2 参数调优 超参数本质上是机器学习算法参数,直接影响学习过程和预测性能。...机器学习任务 在监督学习,两个常见机器学习任务包括分类和回归。 6.1 分类 一个训练有素分类模型将一组变量(定量或定性)作为输入,并预测输出类标签(定性)。

91010

机器学习模型训练全流程!

此外,如果Y包含定量值,那么数据集(由X和Y组成)可以用于回归任务,而如果Y包含定性值,那么数据集(由X和Y组成)可以用于分类任务。 2....根据目标变量(通常称为Y变量数据类型(定性或定量),我们要建立一个分类如果Y是定性)或回归(如果Y是定量)模型。...这样X、Y对构成了用于建立模型标签数据,以便学习如何从输入预测输出。 无监督学习:是一种只利用输入X变量机器学习任务。这种 X 变量是未标记数据,学习算法在建模时使用是数据固有结构。...强化学习:是一种决定下一步行动方案机器学习任务通过试错学习来实现这一目标,努力使回报最大化。 5.2 参数调优 超参数本质上是机器学习算法参数,直接影响学习过程和预测性能。...机器学习任务 在监督学习,两个常见机器学习任务包括分类和回归。 6.1 分类 一个训练有素分类模型将一组变量(定量或定性)作为输入,并预测输出类标签(定性)。

2K31

机器学习常用算法:随机森林分类

Bootstrapping随机森林算法将集成学习方法与决策树框架相结合,从数据创建多个随机绘制决策树,对结果进行平均以输出通常会导致强预测/分类结果。...对于一个完整数据科学项目,我们还希望执行交叉验证并选择具有最佳结果选项。但是,为了简单起见,没有在本文中使用交叉验证,并将在以后文章讨论交叉验证和网格搜索。... random_state = 18) 传递给我们 train_test_split 函数参数是“X”,包含我们数据集变量而不是我们结果变量,“y”是 X 每个观察数组或结果变量。...为了测试经过训练模型,我们可以使用内部“.predict”函数,将我们测试数据集作为参数传递。我们还可以使用以下指标来查看我们测试效果如何。...通常,accuracy不是我们用来判断分类模型性能指标,原因包括数据可能存在不平衡,由于对一类预测不平衡而导致准确性高。但是,为了简单起见,将其包含在上面。

87140

揭开大数据测试神秘面纱

更具体来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量变化量。一般来说,通过回归分析我们可以由给出变量估计因变量条件期望。 统计分类是指识别出样本所属类别,包括二分类和多分类。...根据输入变量、输出变量不同类型,对预测任务给予不同名称:输入变量和输出变量均为连续预测问题称为回归问题;输出变量为有限个离散值得预测问题称为分类问题。...模型测试则发生在模型原型设计之后,即包含在上线阶段又包含在离线监测(监测分布漂移)阶段。 注意不要将训练数据、验证数据与测试数据相混淆。...模型训练、验证与测试应该使用不同数据集,如果验证数据集、测试数据集与训练数据集有重叠部分,那么会导致模型泛化能力差。...F1-score为精确率与召回率调和平均值,值更接近于Precision与Recall较小值。即: ?

75160

如何用R语言在机器学习建立集成模型?

p=6608 介绍 大多数时候,能够破解特征工程部分,但可能没有使用多个模型集合。 在本文中,将向您介绍集成建模基础知识。...2.集合类型 在进一步详细介绍之前,您应该了解一些基本概念是: 平均:它被定义为 在回归问题情况下或在预测分类问题概率时从模型获取预测平均值。 ?...现在,让我们尝试用这些模型形成集合不同方法,如我们所讨论: 平均:在此,我们将平均三个模型预测。由于预测是“Y”或“N”,因此平均值对于此二进制分类没有多大意义。...由于我们有三个模型用于二进制分类任务,因此无法实现平局。#多数投票 加权平均值:我们可以采用加权平均值,而不是采用简单平均值。通常,对于更准确模型,预测权重很高。...在上面的集合已经跳过检查三个模型预测之间相关性。随机选择了这三个模型来演示这些概念。如果预测高度相关,那么使用这三个预测可能不会比单个模型提供更好结果。但你明白了。对?

1.7K30

入门 | 极简Python带你探索分类与回归奥秘

监督学习算法将学习训练样本和其目标变量之间关系,然后应用习得关系对无目标属性全新输入进行分类。 为了阐明监督学习如何工作,让我们考虑一个案例:根据学生学习时长预测学生成绩。...如果给定数据同时具有输入(训练)值和输出(目标)值,那么属于分类问题。如果数据集有着连续数值属性而没有任何目标标签,那么属于回归问题。...分类问题 让我们来举例说明。一名医学研究者希望通过分析乳腺癌数据来预测患者应该接受三种治疗方式哪一种。...这个数据分析任务属于分类,其中构建模型或分类器需要预测类别的标签,比如「疗法 1」、「疗法 2」、「疗法 3」。 分类问题预测离散且无序类别标签。这个过程分两个阶段:学习阶段、分类阶段。...这里目标变量是我们要预测未知变量,连续性指的是 Y 值之间不存在间隙(间断)。 预测收入是一个经典回归问题。

58760

特征工程:Kaggle刷榜必备技巧(附代码)!!!

二进制编码器 二进制编码器是另一种可用于对分类变量进行编码方法。如果一个列中有多个级别,那么这是一种很好方法。...如果训练/测试都来自于同一时间段(横截面)同一个数据集,我们就可以巧妙地使用特征。 例如:在泰坦尼克知识挑战测试数据是从训练数据随机抽样。...在这种情况下,我们可以使用不同分类变量平均目标变量作为特征。 在泰坦尼克,我们可以在乘客舱变量上创建目标编码特征。 在使用目标编码时,我们必须小心,因为它可能会导致我们模型过度使用。...以gzip格式提交Kaggle: 一小段代码可以帮助你节省无数小时上传时间。请享用。 ? 使用纬度和经度特征 本部分将详细介绍如何很好地使用经纬度特征。 对于此任务将使用操场比赛数据: ?...我们觉得这就是目标公司“Pregnant Teen model”制作方式。他们会有一个变量,在这个变量他们保留了怀孕青少年可以购买所有物品,并将它们放入分类算法

4.9K62
领券