前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简单易学的机器学习算法——集成方法(Ensemble Method)

简单易学的机器学习算法——集成方法(Ensemble Method)

作者头像
felixzhao
发布2018-03-19 16:39:49
7560
发布2018-03-19 16:39:49
举报
文章被收录于专栏:null的专栏

一、集成学习方法的思想

前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,常常会因为“集体智慧”使得问题被很容易解决,那么问题来了,在机器学习问题中,对于一个复杂的任务来说,能否将很多的机器学习算法组合在一起,这样计算出来的结果会不会比使用单一的算法性能更好?这样的思路就是集成学习方法。

       集成学习方法是指组合多个模型,以获得更好的效果,使集成的模型具有更强的泛化能力。对于多个模型,如何组合这些模型,主要有以下几种不同的方法:

  1. 在验证数据集上上找到表现最好的模型作为最终的预测模型;
  2. 对多个模型的预测结果进行投票或者取平均值;
  3. 对多个模型的预测结果做加权平均。

以上的几种思路就对应了集成学习中的几种主要的学习框架。

二、集成学习的主要方法

1、强可学习和弱可学习

       在集成学习方法中,是将多个弱模型,通过一定的组合方式,组合成一个强模型。在《统计学习方法》中介绍了“强可学习(strongly learnable)”和“弱可学习(weakly learnable)”的概念。

       在概率近似正确(probably approximately correct, PAC)学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的。一个概念,如果存在一个多项式的学习算法能够学习它,学习正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。Schapire指出在PAC学习框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。那么对于一个学习问题,若是找到“弱学习算法”,那么可以将弱学习方法变成“强学习算法”。

2、在验证集上找表现最好的模型

       这样的方法的思想与决策树的思想类似,在不同的条件下选择满足条件的算法。

3、多个模型投票或者取平均值

       对于数据集训练多个模型,对于分类问题,可以采用投票的方法,选择票数最多的类别作为最终的类别,而对于回归问题,可以采用取均值的方法,取得的均值作为最终的结果。在这样的思路里最著名的是Bagging方法.Bagging即Boostrap Aggregating,其中,Boostrap是一种有放回的抽样方法,其抽样策略是简单的随机抽样。       

(图片来自参考文章2)

随机森林算法就是基于Bagging思想的学习算法。

4、对多个模型的预测结果做加权平均       

(图片来自参考文章2)

AdaBoost和GBDT(Gradient Boosting Decision Tree)是基于Boosting思想的两个最著名的算法。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、集成学习方法的思想
  • 二、集成学习的主要方法
    • 1、强可学习和弱可学习
      • 2、在验证集上找表现最好的模型
        • 3、多个模型投票或者取平均值
          • 4、对多个模型的预测结果做加权平均       
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档