【数说学院】机器学习分类大全

作者 | 冰 · 冰

本文及图的作者是两个人,她们是一个女子博士团体——冰 · 冰

图中整理了机器学习的各种方法,大体分为监督式学习、半监督式学习、无监督式学习、增强学习、其他五大类,每一类都有很多算法实现。点击查看大图,下面的内容是文字版的整理。

编辑 | 数说君

一、监督式学习 Supervised Learning

在监督式学习下,每组训练数据都有一个标识值或结果值,如客户流失对应1,不流失对应0。在建立预测模型的时候,监督式学习建立一个学习过程,将预测的结果与训练数据的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。

1. 分类 Classification

(1)K最近邻 K-Nearest Neighbor (KNN)

(2)朴素贝叶斯 Naive Bayes

(3)决策树 Decision Tree

◆ C4.5

◆ 分类回归树 Classification And Regression Tree (CART)

(4)支持向量机器 Support Vector Machine (SVM)

2. 回归 Regression

(1)线性回归 linear regression

(2)局部加权回归 Locally weighted regression

(3)逻辑回归 logistic Regression

(4)逐步回归 stepwise regression

(5)多元自适应回归样条法 multivariate adaptive regression splines

(6)局部散点平滑估计 Locally estimated scatter plot smoothing ( LOESS )

(7)岭回归 Ridge Regression

(8)Least Absolute Shrinkage and Selection Operator ( LASSO )

(9)弹性网络 Elastic Net

(10)多项式回归 Polynomial Regression

3. 排序 Rank

(1)单文档分类 Pointwise

◆ McRank

(2)文档对方法(Pairwise)

◆ Ranking SVM

◆ RankNet

◆ Frank

◆ RankBoost

(3)文档列表方法(Listwise)

◆ AdaRank

◆ SoftRank

◆ LambdaMART

4. 匹配学习

(1)人工神经网络

◆ 感知神经网络 Perception Neural Network

◆ 反向传递 Back Propagation

◆ Hopfield网络

◆ 自组织映射 Self-Organizing Map ( SOM )

◆ 学习矢量量化 Learning Vector Quantization ( LVQ )

二、半监督学习

在半监督学习方式下,训练数据有部分被标识,部分没有被标识,这种模型首先需要学习数据的内在结构,以便合理的组织数据来进行预测。算法上,包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如深度学习:

1. 深度学习 Deep Learning

深度学习是 监督学习的匹配学习中人工神经网络延伸出来发展出来的。

(1)受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )

(2)深度信念网络 Deep Belief Networks ( DBN )

(3)卷积网络 Convolutional Network

(4)栈式自编码 Stacked Auto-encoders

三、无监督学习 Unsupervised Learning

在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。

1. 聚类 Cluster

(1)K均值 k-means

(2)最大期望算法 Expectation Maximization ( EM )

(3)降维方法 Dimensionality Reduction

◆ 主成分分析Principal Component Analysis ( PCA )

◆ 偏最小二乘回归 Partial Least Squares Regression ( PLS )

◆ Sammon映射 Sammon Mapping

◆ 多维尺度分析 Multidimensional Scaling ( MDS )

◆ 投影寻踪 Projection Pursuit

◆ RD

2. 关联规则 Association Rule

(1)Apriori

(2)Eclat

四、增强学习 Reinforcement Learning

在之前的讨论中,我们总是给定一个样本x,然后给或者不给标识值或结果值(给了就是监督式学习,不给就是无监督式学习)。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向。

增强学习要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人,在工厂中学习最优操作工序以及学习棋类对弈等。当agent在其环境中做出每个动作时,施教者会提供奖励或惩罚信息,以表示结果状态的正确与否。例如,在训练agent进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候为零回报。agent的任务就是从这个非直接的,有延迟的回报中学习,以便后续的动作产生最大的累积效应。

1. Q-Learning

2. 时间差学习 Temporal difference learning

五、其他

集成算法

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。

1. Boosting

2. Bootstrapped Aggregation ( Bagging )

3. AdaBoost

4. 堆叠泛化 Stacked Generalization

5. 梯度推进机 Gradient Boosting Machine ( GBM )

6. 随机森林 Random Forest

图中还总结了机器学习的应用领域,在图左上角。目前,机器学习被广泛运用在:

  • 数据挖掘
  • 计算机视觉
  • 自然语言处理
  • 生物特征识别
  • 搜索引擎
  • 医学诊断
  • 信用卡欺诈检测
  • 证券市场分析
  • DNA测序
  • 语音/手写识别
  • 战略游戏
  • 机器人运用

等等领域。

对各种算法感兴趣的,可以关注我们,【数说学院】将会慢慢给大家介绍。

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2015-10-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

独家 | 一文读懂集成学习(附学习资源)

本文是数据派研究部“集成学习月”的第一篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 集成算法(Ensem...

3555
来自专栏PPV课数据科学社区

【学习】让你欲罢不能的回归分析

本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关...

3838
来自专栏人工智能

宽度学习系统:一种不需要深度结构的高效增量学习系统

本文是对陈俊龙教授团队“Broad Learning System: An Effective and Efficient Incremental Learning ...

6425
来自专栏AI科技评论

学界 | 明星脸、花鸟都不是问题,微软中科大联合推出细粒度图像合成模型

AI 科技评论按:最近推出的几个计算机视觉领域中的突破性论文在图像合成领域展示了新的可能,他们能够创造非常自然的图像,并且合成无比真实甚至同时保持面部信息的人脸...

1405
来自专栏PPV课数据科学社区

盘点金融领域里常用的深度学习模型

在今天我们发布的这篇文章中,作者 Sonam Srivastava 介绍了金融中的三种深度学习用例及这些模型优劣的证据。 我们跟随 Sonam Srivasta...

42112
来自专栏AI科技评论

直播 | CMRC2018 评测任务冠军队伍分享: 如何从数据、模型和训练角度提升阅读理解系统性能?

2018 年 10 月 19 日,第十七届中国计算语言学大会(CCL2018)在长沙召开,追一科技团队作为中文机器阅读理解(CMRC2018)评测任务的冠军队伍...

1193
来自专栏SimpleAI

图像识别泛化能力人机对比:CNN比人类还差得远

我们通过 12 种不同类型的图像劣化(image degradation)方法,比较了人类与当前的卷积式深度神经网络(DNN)在目标识别上的稳健性。首先,对...

1482
来自专栏Data Analysis & Viz

Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai-20180504

本文集仅为收录自己感兴趣、感觉不错的文章与资源,方便日后查找和阅读,所以排版可能会让人觉得乱。内容会不断更新与调整。文中涉及公众号的文章链接可以会失效,知道如何...

2642
来自专栏人工智能头条

CVPR 2018 | 腾讯AI Lab 21篇入选论文详解

1978
来自专栏大数据文摘

想去机器学习初创公司做数据科学家?这里有最常问的40道面试题

2575

扫码关注云+社区

领取腾讯云代金券