首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

初学者如何选择合适的机器学习算法(附算法速查表)

有很多因素会影响这一问题的答案,比如: 数据的大小、质量及性质 可用计算时间 任务的急迫性 数据的使用用途 在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好...我们可以使用算法分析训练数据来学习一个将输入映射到输出的函数。算法推断的函数可通过概括训练数据预测未知情景中的结果进而预测未知的新实例。 分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。...当分类标签只有两个时,这就是二元分类;超过两个则是多元分类。 回归:当预测为连续数值型时,这就是一个回归问题。 预测:这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。...神经网络由 3 个部分组成:输入层、隐藏层和输出层。当输出层是一个分类变量时,那么该神经网络可以解决分类问题。当输出层是一个连续变量时,那么该网络可被用于执行回归。...DBSCAN DBSCAN 示意图 当聚类的数量 k 给定时,可以通过密度扩散(density diffusion)来连接样本,从而使用 DBSCAN(基于密度的空间聚类(density-based

1.2K60

教程 | 初学者如何选择合适的机器学习算法(附速查表)

有很多因素会影响这一问题的答案,比如: 数据的大小、质量及性质 可用计算时间 任务的急迫性 数据的使用用途 在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好...我们可以使用算法分析训练数据来学习一个将输入映射到输出的函数。算法推断的函数可通过概括训练数据预测未知情景中的结果进而预测未知的新实例。 分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。...当分类标签只有两个时,这就是二元分类;超过两个则是多元分类。 回归:当预测为连续数值型时,这就是一个回归问题。 预测:这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。...神经网络由 3 个部分组成:输入层、隐藏层和输出层。当输出层是一个分类变量时,那么该神经网络可以解决分类问题。当输出层是一个连续变量时,那么该网络可被用于执行回归。...当输出层和输入层一样时,该网络可被用于提取内在的特征。隐藏层的数量定义了模型复杂度和建模能力。 k-均值/k-模式、高斯混合模型(GMM)聚类 ? k-均值聚类 ?

71650
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    荐读|初学者如何选择合适的机器学习算法

    有很多因素会影响这一问题的答案,比如: 数据的大小、质量及性质 可用计算时间 任务的急迫性 数据的使用用途 在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好...我们可以使用算法分析训练数据来学习一个将输入映射到输出的函数。算法推断的函数可通过概括训练数据预测未知情景中的结果进而预测未知的新实例。 分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。...当分类标签只有两个时,这就是二元分类;超过两个则是多元分类。 回归:当预测为连续数值型时,这就是一个回归问题。 预测:这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。...神经网络由 3 个部分组成:输入层、隐藏层和输出层。当输出层是一个分类变量时,那么该神经网络可以解决分类问题。 当输出层是一个连续变量时,那么该网络可被用于执行回归。...当输出层和输入层一样时,该网络可被用于提取内在的特征。隐藏层的数量定义了模型复杂度和建模能力。 k-均值/k-模式、高斯混合模型(GMM)聚类 ? k-均值聚类 ?

    68270

    初学者该使用哪一种算法?

    1 、机器学习算法一览表 这张表告诉了我们有哪一些我们可能用到的机器学习算法,这篇文章告诉我们如何使用这张表去解决我们的问题。...借助监督学习,我们会有一组由标注训练数据组成的输入变量和一组希望预测的输出变量。我们可以使用算法分析训练数据来学习一个将输入映射到输出的函数。...算法推断的函数可通过概括训练数据预测未知情景中的结果进而预测未知的新实例。 分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。给一张图片贴上猫或狗的标签就是这种情况。...当分类标签只有两个时,这就是二元分类;超过两个则是多元分类。 回归:当预测为连续数值型时,这就是一个回归问题。 预测:这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。...神经网络由 3 个部分组成:输入层、隐藏层和输出层。当输出层是一个分类变量时,那么该神经网络可以解决分类问题。当输出层是一个连续变量时,那么该网络可被用于执行回归。

    742150

    如何为你的机器学习问题选择合适的算法?

    根据输出结果分类:如果模型输出结果是一个数值,这是回归问题;如果输出结果是一个类别,这是分类问题;如果输出结果是一组输入数据,那这是聚类问题。...上面的描述包括了几个我们还没有提到的专业术语: 分类(classification):当使用数据来预测类别时,监督学习也被叫做分类。...回归(regression):当要预测数值时(比如预测股价),监督学习也被称为回归。 聚类(clustering):聚类或聚类分析(cluster analysis)是无监督学习中最常见的方法之一。...步骤 2:寻找可用的算法 现在我们已经将问题进行了分类,我们就可以使用我们所掌握的工具来识别出适当且实用的算法。...人工神经网络是涵盖二分类、多分类和回归问题的脑启发式学习算法。它们有无限的种类,包括感知器和深度学习。它们需要很长时间来训练,但已知其在多种应用领域都实现了当前最佳的表现。

    1.1K90

    快速选择合适的机器学习算法

    一个初学者面临各种机器学习算法的典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,包括: 数据的大小、质量和性质。 可用计算时间。 任务的紧迫性。...分类:当数据用于预测分类变量时,监督学习也称为分类。 当分配标签或指示符时,狗或猫分配给图像就是这种情况。 当只有两个标签时,这被称为二进制分类。当有两类以上时,这些问题被称为多类分类。...(它可以容易地扩展到多类分类问题)。 在逻辑回归中,我们使用不同的假设类来尝试预测给定示例属于“1”类的概率,而不是它属于“-1”类的概率。 具体来说,我们将尝试学习以下形式的函数: ? 和 ? 。...训练样本定义了输入和输出层。 当输出层是分类变量时,神经网络是解决分类问题的一种方式。 当输出层是连续变量时,网络可以用来做回归。 当输出层与输入层相同时,可以使用网络来提取内在特征。...当给定集群k的数量时,两种算法都是简单且足够快的聚类。 DBSCAN ? 当聚类数k没有给出时,可以通过密度扩散连接样本来使用DBSCAN(基于密度的空间聚类)。 分层聚类 ?

    65221

    机器学习算法备忘单!

    使用这个树状图作为指南,以确定使用哪种ML算法来解决你的AI问题。...DBSCAN(基于密度的有噪声的应用程序空间聚类法) 当涉及到任意形状的聚类或检测异常值时,最好使用基于密度的聚类方法。...这种算法被用于文本挖掘应用、文档聚类、主题建模(每个聚类组代表一个特定的主题)、欺诈检测系统和市场营销。 对于数值型数据,你应该使用K-Means聚类。...高斯混合模型经常被用于信号处理、语言识别、异常检测和音乐的流派分类。 在使用标记数据来训练机器的情况下,首先,你需要指定它是否要预测数字,这种数字预测将有助于算法解决问题。...当你有大量的数据(和处理能力),并且准确性对你很重要时,你几乎肯定会利用神经网络。 这种算法有很多应用,例如释义检测、文本分类、语义解析和问答。

    40020

    《Julia 数据科学应用》总结

    7.你应对数值型数据进行怎样的转换,才能使所有的变量在取值上具有可比性? 8.在解决文本分析问题时,你认为 Julia 中的哪种数据类型是最有用的? 9.假设你有一些文本数据,你要对其进行数据工程。...聚类是至今为止最常用的无监督式学习方法,已经被研究得非常充分。 聚类方法可以使用很多种方式进行分类,最常用的是分割聚类和层次聚类,这种分类的重点在于聚类过程的目标。...其他分类方法关注的是聚类算法的其他方面,比如确定聚类和随机聚类。 分割聚类生成一定数量的互斥的子集(划分),每个子集中的数据点都尽可能相似,而与其他子集中的数据点尽可能相异。...多数分割聚类算法都使用子集数量作为参数。 绝大多数分割聚类方法本质上都具有随机性,分割聚类不但可以进行数据探索,还可以为分类问题找出目标变量。...3.为什么不能使用第9章中介绍的度量方式来评价聚类系统的输出? 4.所有类型的数据都可以被聚类吗?在聚类之前,你需要注意什么? 5.分割聚类与 t-SNE(第7章)有什么不同?

    1.7K40

    关于机器学习的面试题,你又了解多少呢?

    优点: 解决聚类问题的经典算法,简单、快速 当处理大数据集时,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 时间复杂度近于线性,适合挖掘大规模数据集 缺点: 必须事先给出k(一般刚开始难以估计...首先,需要对文档进行初始化处理,将每个文档都用矢量来表示,并使用术语频率来识别常用术语进行文档分类,这一步很有必要。然后对文档向量进行聚类,识别文档组中的相似性。...这里是用于文档分类的K-means算法实现案例。 2.物品传输优化 使用K-means算法的组合找到无人机最佳发射位置和遗传算法来解决旅行商的行车路线问题,优化无人机物品传输过程。...在这篇文章中,你将了解如何使用无监督K-Means聚类算法对客户一天24小时的活动进行聚类,来了解客户数小时内的使用情况。...KNNK-Means目的是为了确定一个点的分类目的是为了将一系列点集分成k类KNN是分类算法K-Means是聚类算法监督学习,分类目标事先已知非监督学习,将相似数据归到一起从而得到分类,没有外部分类训练数据集有

    78330

    数据挖掘150道试题,测测你的专业能力过关吗

    (C) A.频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?...A、模糊c均值 B、EM算法 C、SOM D、CLIQUE 77.关于混合模型聚类算法的优缺点,下面说法正确的是(B)。 A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。...B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。 C、混合模型很难发现不同大小和椭球形状的簇。 D、混合模型在有噪声和离群点时不会存在问题。...A.概率 B、邻近度 C、密度 D、聚类 80.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是(D)。 A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。...描述处理该问题的各种方法有:(ABCDE) A忽略元组 B使用属性的平均值填充空缺值 C使用一个全局常量填充空缺值 D使用与给定元组属同一类的所有样本的平均值 E使用最可能的值填充空缺值 7.下面哪些属于可视化高维数据技术

    1.5K10

    三分钟了解下机器学习

    机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。...监督学习:训练的数据集全部都有标签,根据标签的特点 监督学习可以分为两类问题:回归和分类,回归问题的标签是连续的数值,比如预测房价、股市等,分类问题的标签是离散的数值,比如人脸识别、判断是否正确等,判断两款运营策略哪种更有效...无监督学习:训练数据集没有标签,多应用在聚类、降维等有限的场景中,比如说为用户做分组画像,另外通常也会作为数据预处理的一个子步骤中。 降维算法、聚类算法......半监督分类、半监督回归、半监督聚类、半监督降维 强化学习:针对于一些既不能用监督学习也不能用半监督和无监督学习来解决,这时候强化学习就上场了,它针对是智能体(可以理解成一种机器学习模型)如何基于环境而做出行动反应...常说的深度学习是一种使用深层神经网络的模型,可以应用于上述四类机器学习中,深度学习擅长处理非结构化输入,在视觉处理和自然语言处理方面都很厉害。

    34940

    三分钟了解下机器学习

    机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。...监督学习:训练的数据集全部都有标签,根据标签的特点 监督学习可以分为两类问题:回归和分类,回归问题的标签是连续的数值,比如预测房价、股市等,分类问题的标签是离散的数值,比如人脸识别、判断是否正确等,判断两款运营策略哪种更有效...无监督学习:训练数据集没有标签,多应用在聚类、降维等有限的场景中,比如说为用户做分组画像,另外通常也会作为数据预处理的一个子步骤中。 降维算法、聚类算法......半监督分类、半监督回归、半监督聚类、半监督降维 强化学习:针对于一些既不能用监督学习也不能用半监督和无监督学习来解决,这时候强化学习就上场了,它针对是智能体(可以理解成一种机器学习模型)如何基于环境而做出行动反应...常说的深度学习是一种使用深层神经网络的模型,可以应用于上述四类机器学习中,深度学习擅长处理非结构化输入,在视觉处理和自然语言处理方面都很厉害。

    58240

    【数据挖掘】数据挖掘面试题汇总 测测你的专业能力是否过关?

    某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2....当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A....A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。 B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。 C、混合模型很难发现不同大小和椭球形状的簇。...D、混合模型在有噪声和离群点时不会存在问题。 78. 以下哪个聚类算法不属于基于网格的聚类算法( D )。 A、STING B、WaveCluster C、MAFIA D、BIRCH 79....描述处理该问题的各种方法有: (ABCDE) A忽略元组 B使用属性的平均值填充空缺值 C使用一个全局常量填充空缺值 D使用与给定元组属同一类的所有样本的平均值 E使用最可能的值填充空缺值 7.下面哪些属于可视化高维数据技术

    1.5K60

    一文通解如何选择最合适的机器学习算法

    初学者面对各种机器学习算法,一个典型的问题是:我应该使用哪种算法?问题的答案取决于许多因素,包括: 数据的大小,质量和性质。 可接受的计算时间。 任务的紧迫性。 你想用数据做什么。...当只有两个标签时称为二分类。当有两类以上时,称为多分类。 回归:当预测连续值时,就是一个回归问题。 预测:这是根据过去和现在的数据对未来进行预测的过程。最常用来分析趋势。...神经网络由三部分组成:输入层,隐层和输出层。训练样本定义了输入和输出层。当输出层是分类变量时,神经网络可以用来解决分类问题。当输出层是连续变量时,神经网络可以用来做回归。...当给定簇k的数量时,两种算法都简单且够快。 SAS可视分析中的聚类 一个DBSCAN图像 当没有给出簇k的数量时,可以通过密度扩散连接样本来使用DBSCAN(基于密度的空间聚类)。...层级聚类(Hierarchical clustering) 层级聚类可以使用树结构(树形图)来可视化层级划分。

    62440

    数据挖掘150道试题 敢不敢来自测!

    某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2....当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A....A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。 B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。 C、混合模型很难发现不同大小和椭球形状的簇。...D、混合模型在有噪声和离群点时不会存在问题。 78. 以下哪个聚类算法不属于基于网格的聚类算法( D )。 A、STING B、WaveCluster C、MAFIA D、BIRCH 79....描述处理该问题的各种方法有: (ABCDE) A忽略元组 B使用属性的平均值填充空缺值 C使用一个全局常量填充空缺值 D使用与给定元组属同一类的所有样本的平均值 E使用最可能的值填充空缺值 7.

    1.9K90

    数据挖掘面试 150 道题(附答案)

    某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 ---- 2....当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 ---- 5. 什么是 KDD?...A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。 B、混合模型比 K 均值或模糊 c 均值更一般,因为它可以使用各种类型的分布。...C、混合模型很难发现不同大小和椭球形状的簇。 D、混合模型在有噪声和离群点时不会存在问题。 ---- 78. 以下哪个聚类算法不属于基于网格的聚类算法( D )。...描述处理该问题的各种方法有: (ABCDE) A 忽略元组 B 使用属性的平均值填充空缺值 C 使用一个全局常量填充空缺值 D 使用与给定元组属同一类的所有样本的平均值 E 使用最可能的值填充空缺值 -

    3.3K30

    数据挖掘150道试题 测测你的专业能力过关吗?

    当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A....A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。 B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。 C、混合模型很难发现不同大小和椭球形状的簇。...D、混合模型在有噪声和离群点时不会存在问题。 78. 以下哪个聚类算法不属于基于网格的聚类算法( D )。 A、STING B、WaveCluster C、MAFIA D、BIRCH 79....A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。 B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。 C、JP聚类是基于SNN相似度的概念。...描述处理该问题的各种方法有: (ABCDE) A忽略元组 B使用属性的平均值填充空缺值 C使用一个全局常量填充空缺值 D使用与给定元组属同一类的所有样本的平均值 E使用最可能的值填充空缺值 7.下面哪些属于可视化高维数据技术

    1.2K40

    从头开始学习数据科学

    由于该问题仅提供茶或咖啡,因此您只能回答其中之一。 当我们只有两种类型的答案时,即“是”或“否”,“ 1”或“ 0”,被称为2类分类法。具有两个以上的选项,称为多类分类。...最后,每当遇到问题时,答案都是明确的,在数据科学中,您将使用分类算法来解决这些问题。 您可能会遇到《数据科学教程》中的下一个问题,也许是这样的, 这很奇怪吗?...回归算法在这里! 因此,只要有可能需要数字或数值的问题,我们都会使用回归算法来解决。 例如: 明天气温如何?...由于我们期望在响应此问题时使用一个数值,因此我们将使用回归算法对其进行求解。 在本数据科学教程中继续学习下一个算法, 这是如何组织的? 假设您有一些数据,但现在您不知道如何利用这些数据。...因此,问题是如何组织的? 好了,您可以使用聚类算法解决它。他们如何解决这些问题?让我们来看看: ? 聚类算法根据常见特征对数据进行分组。例如,在上图中,基于颜色来组织点。

    58710

    python数据分析——数据分析的数据模型

    当n和m非常大时,基解数量也非常大,例如,当n=20和m=10时,基解数量可到百万级别。所以,基解是有限个数,但它的数量可以非常大。 从变量非负条件来考虑,我们只关心可行基解。...主流的无监督学习算法有聚类算法,降维算法和关联规则挖掘算法。聚类算法是根据相似性将数据点分组成簇,k-means聚类是一种流行的聚类算法。...而且聚类作为一个独立的工具能够获得数据的分布状况,观察每一个类别数据的特征,集中对特定的聚类集合作进一步地分析。聚类分析还可以作为其他算法,例如,分类算法的预处理步骤。...接下来,我们来讨论一个最常用的聚类算法,k均值聚类算法。k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。...由于不同的初始参考向量将产生不同的聚类效果,从而可以选择我们满意的聚类效果。k值是事先给定的,在开始处理数据前, k值是未知的,不同的k值导致不同的聚类结果。

    25811
    领券