简单易学的机器学习算法——集成方法(Ensemble Method)

一、集成学习方法的思想

前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,常常会因为“集体智慧”使得问题被很容易解决,那么问题来了,在机器学习问题中,对于一个复杂的任务来说,能否将很多的机器学习算法组合在一起,这样计算出来的结果会不会比使用单一的算法性能更好?这样的思路就是集成学习方法。

       集成学习方法是指组合多个模型,以获得更好的效果,使集成的模型具有更强的泛化能力。对于多个模型,如何组合这些模型,主要有以下几种不同的方法:

  1. 在验证数据集上上找到表现最好的模型作为最终的预测模型;
  2. 对多个模型的预测结果进行投票或者取平均值;
  3. 对多个模型的预测结果做加权平均。

以上的几种思路就对应了集成学习中的几种主要的学习框架。

二、集成学习的主要方法

1、强可学习和弱可学习

       在集成学习方法中,是将多个弱模型,通过一定的组合方式,组合成一个强模型。在《统计学习方法》中介绍了“强可学习(strongly learnable)”和“弱可学习(weakly learnable)”的概念。

       在概率近似正确(probably approximately correct, PAC)学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的。一个概念,如果存在一个多项式的学习算法能够学习它,学习正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。Schapire指出在PAC学习框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。那么对于一个学习问题,若是找到“弱学习算法”,那么可以将弱学习方法变成“强学习算法”。

2、在验证集上找表现最好的模型

       这样的方法的思想与决策树的思想类似,在不同的条件下选择满足条件的算法。

3、多个模型投票或者取平均值

       对于数据集训练多个模型,对于分类问题,可以采用投票的方法,选择票数最多的类别作为最终的类别,而对于回归问题,可以采用取均值的方法,取得的均值作为最终的结果。在这样的思路里最著名的是Bagging方法.Bagging即Boostrap Aggregating,其中,Boostrap是一种有放回的抽样方法,其抽样策略是简单的随机抽样。       

(图片来自参考文章2)

随机森林算法就是基于Bagging思想的学习算法。

4、对多个模型的预测结果做加权平均       

(图片来自参考文章2)

AdaBoost和GBDT(Gradient Boosting Decision Tree)是基于Boosting思想的两个最著名的算法。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏null的专栏

可扩展机器学习——概述

注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图...

3346
来自专栏SIGAI学习与实践平台

机器学习中的目标函数总结

几乎所有的机器学习算法最后都归结为求解最优化问题,以达到我们想让算法达到的目标。为了完成某一目标,需要构造出一个“目标函数”来,然后让该函数取极大值或极小值,从...

6921
来自专栏YoungGy

机器学习的损失函数

机器学习三方面 损失函数 交叉熵逻辑回归 平方损失函数最小二乘 Hinge损失函数SVM 指数损失函数AdaBoost 对比与总结 机器学习三方面 机器学习问题...

2397
来自专栏算法channel

北大陈浩然笔记:特征缩放和泛化能力(亮点)

表示第 i 个数据的第 j 个属性,它是一个实数,yi 是第 i 个数据的标签值,也是实数。f是我们学习到的模型,

1020
来自专栏SIGAI学习与实践平台

用一句话总结常用的机器学习算法

浓缩就是精华。想要把书写厚很容易,想要写薄却非常难。现在已经有这么多经典的机器学习算法,如果能抓住它们的核心本质,无论是对于理解还是对于记忆都有很大的帮助,还能...

1003
来自专栏媒矿工厂

基于生成对抗网络的反色调映射算法

ICASSP 2018于2018年4月15日到4月20日在加拿大卡尔加里举行,会议主题为Signal Processing and Artificial Int...

1243
来自专栏机器之心

学界 | 谷歌大脑提出Adversarial Spheres:从简单流形探讨对抗性样本的来源

3487
来自专栏人工智能

Effective Deep Memory Networks for Relation Extraction

Citation:Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant Supervision for...

2225
来自专栏算法channel

BAR面试题6:LR和SVM的联系与区别

接下来,每天一道BAT面试题陪伴你,日积月累,相信大家会从中学到一些东西。最后希望你们顺利拿到理想的OFFER.

3192
来自专栏Bingo的深度学习杂货店

吴恩达 —— 深度学习 Course 1 笔记

Course1:神经网络和深度学习,包括: ---- [1] Week1:深度学习概述 [2] Week2:神经网络基础 [3] Week3:浅层神经网络 ...

3138

扫码关注云+社区

领取腾讯云代金券