Azure Machine Learning 上如何选择合适的机器学习算法

Azure Machine Learning Studio 有着大量的机器学习算法,现在你可以使用它来构建预测分析解决方案。这些算法可用于一般的机器学习:回归分析、分类、聚类和异常检测,且每一个都可以解决不同类型的机器学习问题。

现在的问题是,是否有什么工具之类的东西可帮助找出如何选择一个合适的机器学习算法,并根据具体的方案?

点击这里查看大图。

点击此处下载 Cheat Sheet:Microsoft Azure Machine Learning Algorithm Cheat Sheet

微软 Azure 的机器学习 Algorithm Cheat Sheet 旨在帮助你筛选可用的机器学习算法,并选择合适的一个来用于预测分析解决方案。Cheat Sheet 会询问你这两个问题:数据的性质、你工作想要解决的问题等,然后提出一个你可以尝试的算法的建议。

Azure Machine Learning Studio 为你提供了灵活的体验:尝试一种算法,如果你对结果不满意,那就尝试另一种。(Azure 机器学习是免费的,也不需要什么许可,点击这里试用。)这里有一个来自 Azure Machine Learning Gallery 的例子,该实验是尝试用几种不同的算法用在相同的数据上,然后进行结果比较:Compare Multi-class Classifiers: Letter recognition。

  • 对于不同类型的机器学习算法和如何使用的深入讨论,参见:How to choose an algorithm in Azure Machine Learning。
  • 所有的机器学习算法列表都在 Machine Learning Studio 中可获得,参见:Initialize Model。

关于 Azure Machine Learning Studio

Azure Machine Learning Studio 提供了许多不同的先进机器学习算法来帮助你生成分析模型。首先,确定要执行的机器学习任务的常规类型,因为归组在每个类别中的算法适合特定的预测任务。

选择一种算法并配置其参数后,可以使用训练模块之一通过选定算法运行数据,也可以使用扫描参数循环访问所有可能的参数并确定任务和数据的最佳配置。

学习算法的类别

Azure Machine Learning Studio 提供了以下各种类型的机器学习算法,它们按典型的机器学习方案来分组。

  • 异常检测

异常检测包含许多机器学习方面的重要任务,异常检测技术适用于各种行业:

1. 标识可能具有欺诈性的事务。
2. 学习指示发生了网络入侵的模式
3. 查找异常的患者群集
4. 检查输入到系统的值

根据定义,异常属于罕见事件,因此可能很难收集有代表性的数据样本来进行建模。本节中包含的算法已经过专门设计,可以解决异常检测的核心构建和训练模型问题。

此类别包括以下模块:单类支持向量机、基于 PCA 的异常检测。

  • 分类

分类算法用于预测单个数据实例的类或类别。例如,电子邮件筛选器使用二元分类来确定某封电子邮件是否为垃圾邮件。有两种形式的分类任务。一种是旨在预测两个结果之一的二元分类,另一种是旨在预测多个结果之一的多类分类。分类算法的输出为分类器,可用于预测新的(未标记)实例的标签。

类别 Modules References.Machine Learning.Initialize Model.Classification 包括以下模块:多类决策林、多类决策森林、多类逻辑回归、多类神经网络、一对多多类、双类平均感知器、双类贝叶斯点机、双类提升决策树、双类决策林、双类决策森林、双类逻辑回归、双类神经网络、双类支持向量机、双类局部深层支持向量机。

  • 聚类

聚类算法可以基于一组特征学习了解如何将一组项分组在一起。例如,聚类通常在文本分析中使用,以便将包含常见单词的文本片段分组在一起。可以使用聚类通过找出最接近的数据点,然后确定每种组合的质心或中心点,来分组未标记的数据。训练算法后,可以使用它来预测数据实例所属的聚类。

类别 Modules References.Machine Learning.Initialize Model.Clustering 包括模块:K 平均值聚类

  • 回归

回归算法是学习预测单个数据实例的实际函数字的算法。例如,房价预测器可以使用回归算法来预测当前的房价。回归算法确定要执行回归函数的数据的每个特征分布。算法训练用于预测标记数据的函数后,可用于预测新的(未标记)实例的标签。

类别 Modules References.Machine Learning.Initialize Model.Regression

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-05-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 一个Python特征选择工具,助力实现高效机器学习

项目地址:https://github.com/WillKoehrsen/feature-selector

1882
来自专栏杨熹的专栏

TensorFlow-10-基于 LSTM 建立一个语言模型

今日资料: https://www.tensorflow.org/tutorials/recurrent 中文版: http://wiki.jikexue...

5396
来自专栏fangyangcoder

数字图像处理之亮度变换

                                           by方阳

1544
来自专栏机器之心

教程 | 使用Keras实现多输出分类:用单个模型同时执行两个独立分类任务

之前我们介绍了使用 Keras 和深度学习的多标签分类(multi-label classification),参阅 https://goo.gl/e8RXtV...

6862
来自专栏CDA数据分析师

资源 | 一个Python特征选择工具,助力实现高效机器学习

项目地址:https://github.com/WillKoehrsen/feature-selector

1660
来自专栏编程

关于反向传播在Python中应用的入门教程

我来这里的目的是为了测试我对于Karpathy的博客《骇客的神经网络指导》以及Python的理解,也是为了掌握最近精读的Derek Banas的文章《令人惊奇的...

2127
来自专栏机器学习原理

深度学习——CNN(3)CNN-AlexNetCNN-GoogleNet其他网络结构

2635
来自专栏目标检测和深度学习

教程 | 先理解Mask R-CNN的工作原理,然后构建颜色填充器应用

选自matterport 作者:Waleed Abdulla 机器之心编译 参与:刘晓坤 上年 11 月,matterport 开源了 Mask R-CNN 实...

2395
来自专栏ATYUN订阅号

词序:神经网络能按正确的顺序排列单词吗?

当学习第二语言时,最困难的挑战之一可能是熟悉单词顺序。词序在机器翻译中也很重要,因为翻译大致上是一种处理目标语言词汇的过程,它与源语言是对等的。也许你已经做过一...

3514
来自专栏杨熹的专栏

Ensemble Learners

Udacity Ensemble Learners ---- Boosting Algorithm 不需要绞尽脑汁去想很复杂的 Rules,只需要一些简单的 ...

3647

扫码关注云+社区

领取腾讯云代金券