《机器学习实战》算法总结

缺失值


  1. 使用可用特征的均值来填补缺失值
  2. 使用特殊值来填补缺失值,如-1
  3. 忽略有缺失值的样本
  4. 使用相似样本的均值添补缺失值
  5. 使用另外的机器学习算法预测缺失值。

k-近邻算法


  • 优点:精度高、对异常值不敏感、无数据输入假定。
  • 缺点:计算复杂度高、空间复杂度高。
  • 适用数据范围:数值型和标称型。

k近邻算法的一般流程

  1. 收集数据:可以使用任何方法。
  2. 准备数据:距离计算所需要的数值,最好是结构化的数据格式。
  3. 分析数据:可以使用任何方法。
  4. 训练算法:此步骤不适用于k近邻算法。
  5. 测试算法:计算错误率。
  6. 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

决策树


  • 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
  • 缺点:可能会产生过度匹配问题。
  • 适用数据类型:数值型和标称型。

决策树的一般流程

  1. 收集数据:可以使用任何方法。
  2. 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。
  3. 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。
  4. 训练算法:构造树的数据结构。
  5. 测试算法:使用经验树计算错误率。
  6. 使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

朴素贝叶斯


  • 优点:在数据较少的情况下仍然有效,可以处理多类别问题。
  • 缺点:对于输入数据的准备方式较为敏感。
  • 适用数据类型:标称型数据。

朴素贝叶斯的一般过程:

  1. 收集数据:可以使用任何方法。本章使用RSS源。
  2. 准备数据:需要数值型或者布尔型数据
  3. 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
  4. 训练算法:计算不同的独立特征的条件概率。
  5. 测试算法:计算错误率。
  6. 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

Logistic回归

  • 优点:计算代价不高,易于理解和实现。
  • 缺点:容易欠拟合,分类精度可能不高。
  • 适用数据类型:数值型和标称型数据。

Logistic回归的一般过程

  1. 收集数据:采用任意方法收集数据。
  2. 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。
  3. 分析数据:采用任意方法对数据进行分析。
  4. 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。
  5. 测试算法:一旦训练步骤完成,分类将会很快。
  6. 使用算法:首先,我们需要一些输入数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定它们属于哪个类别;在这之后,我们就可以在输出的类别上做一些其他分析工作。

支持向量机


  • 优点:泛化错误率低,计算开销不大,结果易解释。
  • 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。
  • 适用数据类型:数值型和标称型数据。

SVM的一般流程

  1. 收集数据:可以使用任意方法。
  2. 准备数据:需要数值型数据。
  3. 分析数据:有助于可视化分隔超平面。
  4. 训练算法:SVM的大部分时间都源自训练,该过程主要实现两个参数的调优。
  5. 测试算法:十分简单的计算过程就可以实现。
  6. 使用算法:几乎所有分类问题都可以使用SVM,值得一提的是,SVM本身是一个二类分类器,对多类问题应用SVM需要对代码做一些修改。

AdaBoost


  • 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整
  • 缺点:对离群点敏感。
  • 适用数据类型:数值型和标称型数据。

AdaBoost的一般流程

  1. 收集数据:可以使用任意方法。
  2. 准备数据:依赖于所使用的弱分类器类型,本章使用的是单层决策树,这种分类器可以处理任何数据类型。当然也可以使用任意分类器作为弱分类器。作为弱分类器,简单分类器的效果更好。
  3. 分析数据:可以使用任意方法。
  4. 训练算法:AdaBoost的大部分时间都用在训练上,分类器将多次在同一数据集上训练弱分类器。
  5. 测试算法:计算分类的错误率。
  6. 使用算法:同SVM一样,AdaBoost预测两个类别中的一个。如果想把它应用到多个类别的场合,那么就要像多类SVM中的做法一样对AdaBoost进行修改。

线性回归


  • 优点:结果易于理解,计算上不复杂。
  • 缺点:对非线性的数据拟合不好。
  • 适用数据类型:数值型和标称型数据。

回归的一般方法 收集数据:采用任意方法收集数据。

  1. 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。
  2. 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。
  3. 训练算法:找到回归系数。
  4. 测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果。
  5. 使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

树回归


  • 优点:可以对复杂和非线性的数据建模
  • 缺点:结果不易理解
  • 适用数据类型:数值型和标称型数据

树回归的一般方法

  1. 收集数据:采用任意方法收集数据。
  2. 准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。
  3. 分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。
  4. 训练算法:大部分时间都花费在叶节点树模型的构建上。
  5. 测试算法:使用测试数据上的R2值来分析模型的效果。
  6. 使用算法:使用训练出的树做预测,预测结果还可以用来做很多事情

k均值聚类


  • 优点:容易实现。
  • 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。
  • 适用数据类型:数值型数据。

K均值聚类的一般流程

  1. 收集数据:使用任意方法。
  2. 准备数据:需要数值型数据来计算距离,也可以将标称型数据映射为二值型数据再用于距离计算。
  3. 分析数据:使用任意方法。 训练算法:不适用于无监督学习,即无监督学习没有训练过程。
  4. 测试算法:应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和(后面会介绍)来评价算法的结果。
  5. 使用算法:可以用于所希望的任何应用。通常情况下,簇质心可以代表整个簇的数据来做出决策。

Apriori算法


  • 优点:易编码实现
  • 缺点:在大数据集上可能较慢
  • 适用数据类型:数值型或者标称型数据

Apriori算法的一般过程

  1. 收集数据:使用任意方法。
  2. 准备数据:任何数据类型都可以,因为我们只保存集合。
  3. 分析数据:使用任意方法。
  4. 训练算法:使用Apriori算法来找到频繁项集。
  5. 测试算法:不需要测试过程。
  6. 使用算法:用于发现频繁项集以及物品之间的关联规则。

FP-growth算法


  • 优点:一般要快于Apriori
  • 缺点:实现比较困难,在某些数据集上性能会下降
  • 适用数据类型:标称型数据

FP-growth的一般流程

  1. 收集数据:使用任意方法。
  2. 准备数据:由于存储的是集合,所以需要离散数据。如果要处理连续数据,需要将它们量化为离散值。
  3. 分析数据:使用任意方法。
  4. 训练算法:构建一个FP树,并对树进行挖据。
  5. 测试算法:没有测试过程。
  6. 使用算法:可用于识别经常出现的元素项,从而用于制定决策、推荐元素或进行预测等应用中。

PCA 主成分分析


  • 优点:降低数据的复杂性,识别最重要的多个特征。
  • 缺点:不一定需要,且可能损失有用信息。
  • 适用数据类型:数值型数据。

奇异值分解(Singular Value Decomposition,SVD)。


  • 优点:简化数据,去除噪声,提高算法的结果。
  • 缺点:数据的转换可能难以理解。
  • 适用数据类型:数值型数据。

MapReduce:分布式计算的框架


  • 优点:可在短时间内完成大量工作。
  • 缺点:算法必须经过重写,需要对系统工程有一定的理解。
  • 适用数据类型:数值型和标称型数据。

在MapReduce框架上使用SVM的一般方法

  1. 收集数据:数据按文本格式存放。
  2. 准备数据:输入数据已经是可用的格式,所以不需任何准备工作。如果你需要解析一个大规模的数据集,建议使用map作业来完成,从而达到并行处理的目的。
  3. 分析数据:无。
  4. 训练算法:与普通的SVM一样,在分类器训练上仍需花费大量的时间。
  5. 测试算法:在二维空间上可视化之后,观察超平面,判断算法是否有效。
  6. 使用算法:本例不会展示一个完整的应用,但会展示如何在大数据集上训练SVM。该算法其中一个应用场景就是文本分类,通常在文本分类里可能有大量的文档和成千上万的特征。

[美]Peter Harrington. 机器学习实战 (图灵程序设计丛书 72)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

神经网络求解新思路:OpenAI用线性网络计算非线性问题

AI选自OpenAI 作者:JAKOB FOERSTER 机器之心编译 使用线性网络进行非线性计算是一种特立独行的思路,近日,OpenAI 发布了一篇博客,介绍...

3056
来自专栏机器之心

学界 | 最大化互信息来学习深度表示,Bengio等提出Deep INFOMAX

在意识层面上,智能体并不在像素和其他传感器的层面上进行预测和规划,而是在抽象层面上进行预测。因为语义相关的比特数量(在语音中,例如音素、说话者的身份、韵律等)只...

1811
来自专栏AI科技评论

​大牛的《深度学习》笔记,60分钟带你学完Deep Learning(下)

导读:昨天我们为大家带来了大牛Zouxy学习深度学习的笔记的上篇。今天我们继续为大家带来教程的下篇,让我们看看这位大牛在深度学习领域还有什么独到的理解~ |六、...

3576
来自专栏机器学习算法与Python学习

Word2Vec —— 深度学习的一小步,自然语言处理的一大步

1665
来自专栏CreateAMind

迁移学习和领域自适应

迁移学习和领域自适应指的是利用一个设定(分布 P1)中已经学到的内容去改 善另一个设定(比如分布 P2)中的泛化情况。这点概括了上一节提出的想法,在无 监督学习...

2311
来自专栏机器之心

教程 | 如何使用深度学习执行文本实体提取

选自TowardsDataScience 作者:Dhanoop Karunakaran等 机器之心编译 参与:Tianci LIU、路 本文介绍了如何使用深度学...

4116
来自专栏AI研习社

Word2Vec —— 深度学习的一小步,自然语言处理的一大步

Word2Vec 模型用来学习单词的向量表示,我们称为「词嵌入」。通常作为一种预处理步骤,在这之后词向量被送入判别模型(通常是 RNN)生成预测结果和执行各种有...

911
来自专栏智能算法

GBDT算法(详细版)

一、前言 通过之前的文章GBDT算法(简明版)对GBDT的过程做了大概的讲解,我们可以了解到GBDT是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起...

5856
来自专栏机器人网

【深度】一图看完深度学习架构谱系图

金成勳在 GitHub 上梳理出的谱系图如下,小编在此基础上对各个分支网络做了介绍、补充,希望对读者了解网络体系间的关联有所帮助。如有缺陷,欢迎大家留言补充。 ...

2955
来自专栏量化投资与机器学习

【Python机器学习】系列之线性回归篇【深度详细】

谢谢大家的支持!现在该公众号开通了评论留言功能,你们对每篇推文的留言与问题,可以通过【写评论】给圈主留言,圈主会及时回复您的留言。 本次推文介绍用线性模型处理回...

1K9

扫码关注云+社区

领取腾讯云代金券