集成学习(EL)综述

机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习的首要热门方向。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。本文章是对分类的集成学习(图1所示)的概念以及一些主要的集成学习方法的简介。

图1 分类器的集成学习

Ensemble Learning---集成学习,相关的有多模型系统、Committee Learning、Modular systems、多分类器系统。。。。虽然这些概念相互之间有非常密切的联系,但它们之间还是有一定的区别,所面对的问题不一样,进而解决问题的思路也存在差异。个人认为,集成学习一个非常重要的性质是个体学习器是为同一个问题进行学习,即分而治之式地把问题分解为若干个子问题,然后再想办法从个别解求得整体解是不同的,因为前者导致了学习的难点在于个体学习器差异的获得,而后者则在差异上没有难点,而在问题分解上很困难。Committe learning和集成学习要相近一些。而多分类器系统,则是在分类器意义上的全包含。大家的最终目标实际上都是一样的,但由于途径不同,面对的难点就不太一样了,所以研究重点也不太一样。

目前,机器学习方法已经在科学研究、语音识别、人脸识别、手写识别、数据挖掘、医疗诊断、游戏等等领域之中得到应用。随着机器学习方法的普及,机器学习方面的研究也越来越热门,目前来说机器学习的研究主要分为四个大方向:

a) 通过集成学习方法提高学习精度;

b) 扩大学习规模;

c) 强化学习;

d) 学习复杂的随机模型;

什么是集成学习

传统的机器学习方法是在一个由各种可能的函数构成的假设空间中寻找一个最接近实际分类函数的分类器h 。单个分类器模型主要有决策树、人工神经网络、朴素贝叶斯分类器等。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。集成学习的基本思想如图2所示,集成分类器包括了N个单一的人工神经网络分类器,对于同样的输入,N个人工神经网络分别给出各自的输出(O1,O2,...,On),然后这些输出通过整合以后得到集成分类器整体的输出结果作为最终分类。

图2 神经网络集成示意图

常用集成学习方法介绍

考察一个集成学习方法的时候应该考虑以下几方面的问题:

a) 基本分类器之间是什么关系?

b) 怎么样生成多个不同的基本分类器?

c) 如何把多个基本分类器的分类结果整合起来?

下面将如何把多个基本分类器的分类结果整合起来为线索对现在主要的集成学习方法进行简单的介绍。

现在我们有多个基本分类器的分类结果了,但是怎么根据这么多的分类结果来给出最终决策呢?文献显示可以把基本分类器的整合方式归纳为三个层次:

a) 抽象层次:每个基本分类器只提供一个目标分类或者目标分类子集;

b) 排位层次:每个基本分类器提供一个可能的目标分类列表,其中的目标分类按照可能性大小排列;

c) 度量层次:每个基本分类不仅提供分类结果,还提供每种分类结果的可能性。

本文中主要介绍抽象层次的整合方式,把这种整合方式归为四类,并分别进行说明。

简单投票:

投票法的基本思想是多个基本分类器都进行分类预测,然后根据分类结果用某种投票的原则进行投票表决,按照投票原则的不同投票法可以有一票否决、一致表决、少数服从多数、阈值表决等。

一票否决的思想是当且仅当所有的分类器都把实例x划分到类Ci的时候才把x划分到Ci,否则拒绝这个实例;一致表决的思想是没有分类器反对把x划分到Ci的时候就把x划分到Ci;少数服从多数顾名思义就是当让各个基本分类器进行投票,得票数多的那个分类作为对应实例x的最终分类Ci;阈值表决是首先统计出把实例x划分为Ci和不划分为Ci的分类器数目分别是多少,然后当这两者比例超过某个阈值的时候把x划分到Ci。

对基于不同特征子集得到的基本分类器的整合

Ke Chen等研究了基于不同特征子集所产生的基本分类器如何整合的问题,y研究了线性整合、Winner-Take-All和证据推理等整合方式。其中线性整合指的是使用各个基本分类器输出的线性组合来作为分类结果;Winner-Take-All指的是对于每一种输入模式都分别选定某一个基本分类器作为胜利者,把这个基本分类器的结果作为分类结果进行输出。

贝叶斯投票

简单投票法假设每个基本分类器都是平等的,没有分类能力之间的差别,但是这种假设并不总是合适的,在实际生活中,我们听取一个人的意见的时候会考虑到这个人过去的意见是否有用,贝叶斯投票法就是基于这种思想来提出的。贝叶斯投票法是基于每一个基本分类器在过去的分类表现来设定一个权值,然后按照这个权值进行投票,其中每个基本分类器的权值基于贝叶斯定理来进行计算。

虽然理论上贝叶斯投票法在假设空间所有假设的先验概率都正确的情况下能够获得最优的集成效果,但是实际应用中往往不可能穷举整个假设空间,也不可能准确地给每个假设分配先验概率,从而使得在实际使用中其他集成方法也会优于贝叶斯投票法。

基于D-S证据理论的整合方式

Lei Xu、Ke Chen和Ahmed Al-Ani等先后提出了若干种基于D-S证据理论的整合方式,这些整合方式的基本思想是通过识别率、拒绝率等一系列参数计算出每个目标分类的信任范围,从而最终推断出分类结果。

小结

评价集成学习方法的时候一般有三条基本标准:学习精度、学习效率和基本分类器的多样性。我们所常见的Bagging、AdaBoost、随机扰动等方法都是目前集成学习中非常常用并且被实践证明有效的方法,基于决策树或者是人工神经网络的集成学习更是被应用到各种场合。

集成学习现在还是机器学习中一个热门的研究方向,诸如AdaBoost等集成学习方法背后的具体机理,如何提高集成学习的学习效果,如何提高集成学习解决问题的规模,各种集成学习方法之间的具体关系,集成学习和数据复杂性之间的关系等等都是尚未完全解决的问题。

参考文献:

bluenight博客

马少平, 朱小燕: 人工智能. 清华大学出版社, 2004

T.G. Dietterich. Machine Learning Research: Four Current Directions.

Tom M. Mitchell: Machine Learning. McGraw Hill, 1997.

Z.H. Zhou, J. Wu, and W. Tang. Ensembling Neural Networks: Many Could Be Better than All.

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2016-11-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

微软IJCAI2016演讲PPT:深度学习在语音识别上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者,微软在自然预...

509120
来自专栏深度学习计算机视觉

【CVPR 2018】牛津大学等联合提出通过让神经网络学会比较实现少样本学习

【论文导读】 深度学习的爆炸式发展得益于海量数据+强大计算力+算法三个部分的巨大进展,我们通常需要大量的数据去驱动模型的训练,使其获得很好的效果。但是在很多领...

46250
来自专栏计算机视觉战队

CVPR 2018 论文简单笔记(部分,待更新)

计算机视觉最具影响力的学术会议之一的 CVPR 将于 2018 年 6 月 18 日 - 22 日在美国盐湖城召开举行。据 CVPR 官网显示,今年大会有超过 ...

19920
来自专栏机器之心

学界 | 通过Crowd Layer,利用众包标注数据集进行深度学习

选自arXiv 机器之心编译 参与:刘晓坤、路雪 本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端...

49360
来自专栏机器之心

学界 | 与模型无关的元学习,UC Berkeley提出一种可推广到各类任务的元学习方法

选自BAIR Blog 作者:Chelsea Finn 机器之心经授权编译 参与:路雪、蒋思源 学习如何学习一直是机器学习领域内一项艰巨的挑战,而最近 UC B...

42090
来自专栏云时之间

什么是检验神经网络?

各位小伙伴们大家好,今天让我们聊聊在做好了自己的神经网络以后来如何评价自己的神经网络的并且如何从评价当中如何改进我们的神经网络。 其实评价神经网络的方法和评价其...

38080
来自专栏PaddlePaddle

【AI核心技术】课程二:Modern AI课程体系

从今天开始,UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程继续更新!

13930
来自专栏Java 源码分析

数字图像处理

30980
来自专栏AI科技评论

干货 | 从零开始入门机器学习算法实践

人工智能热潮下,“大数据”、“机器学习”、“深度学习”热词屡见不鲜,但是想要真正掌握核心技术,势必要对机器学习算法有全面理解,这也是深入机器学习的必经之路。 为...

350100
来自专栏小巫技术博客

深度学习的一些概念分享

9820

扫码关注云+社区

领取腾讯云代金券