春节充电系列:李宏毅2017机器学习课程学习笔记30之集成学习 (Ensemble Learning)

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的Recurrent Neural Network。这一节将主要针对讨论Ensemble进行讨论。本文内容主要针对机器学习中Ensemble的bagging、boosting以及stacking进行详细介绍,话不多说,让我们一起学习这些内容吧。

春节充电系列:李宏毅2017机器学习课程学习笔记21之结构化学习(Structured learning)介绍篇

春节充电系列:李宏毅2017机器学习课程学习笔记22之结构化学习(Structured learning)线性模型

春节充电系列:李宏毅2017机器学习课程学习笔记23之结构化学习-Structured SVM(part 1)

春节充电系列:李宏毅2017机器学习课程学习笔记24之结构化学习-Structured SVM(part 2)

春节充电系列:李宏毅2017机器学习课程学习笔记25之结构化学习-序列标注 Sequence Labeling(part 1)

春节充电系列:李宏毅2017机器学习课程学习笔记26之结构化学习-序列标注 Sequence Labeling(part 2)

春节充电系列:李宏毅2017机器学习课程学习笔记27之循环神经网络 Recurrent Neural Network

春节充电系列:李宏毅2017机器学习课程学习笔记28之循环神经网络 Recurrent Neural Network Part2

春节充电系列:李宏毅2017机器学习课程学习笔记29之循环神经网络 Recurrent Neural Network Part3

课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

视频网址:

https://www.bilibili.com/video/av15889450/index_1.html

李宏毅机器学习笔记30 集成学习(Ensemble Learning)

Ensemble的方法是团队合作,简单的来说就是好几个模型一起上的方法

Ensemble通常是最后实在不能提高实验结果然后采用,实验效果会提升一个档次。

相当于群殴的方法

1.bagging

下面讲述ensemble中bagging的内容

以前我们早已经介绍过小的模型得出的结果一般方差比较小,但偏差比较大。而大的模型得出的结果方差比较大,偏差比较小。

一个复杂的模型是均值很正确,方差很大,但将很多复杂模型平均,结果就是很接近真实的值

Bagging 制造出不同的dataset进行训练,得到多个不同的模型

当你的model很复杂的时候,你担心它overfitting,这时候就用bagging

Decision tree就容易overfitting,Random forest就是decision tree做bagging的版本

假如我们想要得到一个Miku(初音未来)的模型

树越深,模型越接近

Random forest是在每一次做decision tree的时候,随机决定哪一些feature或者question是不能用的

随着深度越来越深,效果越来越好

2.boosting



还有一个方法叫做boosting

Boosting是在不同的训练集上进行训练,事实上,我们通过改变损失函数来实现这个效果

adaboost的思想是f2在能够使得f1失败的训练集上进行训练

大致效果流程去下图所示

调整权重,使得错误的权重大

根据以上的算法思想进行计算

继续化简我们会得到d的值

最后整体算法如下图所示

最终我们得到一系列函数,我们需要整合他们

下面是一个具体例子

我们依据之前得到的算法进行更新

t=3时得到

然后将三个函数整合在一起得到最终结果

想了解更多可以查阅一下资料

3.stacking

还有一种方法叫做Stacking

简单来说就是把每个model的output当成一个feature,这些model有好有坏,所以整合在一起的时候需要设置权重。

请关注专知公众号

  • 后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WD学习记录

机器学习 学习笔记(4)牛顿法 拟牛顿法

的值,函数f(x)有极值的必要条件是在极值点处一阶导数为0,即梯度向量为0.特别是当

31910
来自专栏机器学习算法与理论

【一文读懂】机器学习

      看到很多人都有写博客的习惯,现在开始实习了,也把之前写过的东西整理整理,发在这里,有兴趣的同学可以一起交流交流。文笔稚嫩,希望大家宽容以待!   ...

36160
来自专栏AI传送门

股票预测,自动翻译,你想要的它都能做——RNN算法探索之旅(1)

17760
来自专栏企鹅号快讯

人工智能很火 可你知道背后应用了哪些算法吗

对于人工智能来说,重中之重无疑是算法,对于企业来说,尤其是人工智能和机器学习领域的企业,究竟掌握多少算法以及数据基础,是推动和影响未来企业业务向前推进的重要参考...

22370
来自专栏AI科技评论

直播 | CMRC2018 评测任务冠军队伍分享: 如何从数据、模型和训练角度提升阅读理解系统性能?

2018 年 10 月 19 日,第十七届中国计算语言学大会(CCL2018)在长沙召开,追一科技团队作为中文机器阅读理解(CMRC2018)评测任务的冠军队伍...

13030
来自专栏AI科技评论

学界 | 明星脸、花鸟都不是问题,微软中科大联合推出细粒度图像合成模型

AI 科技评论按:最近推出的几个计算机视觉领域中的突破性论文在图像合成领域展示了新的可能,他们能够创造非常自然的图像,并且合成无比真实甚至同时保持面部信息的人脸...

15050
来自专栏计算机视觉战队

机器人也会画漫画

说到人工智能,大家第一想到的应该会是人脸识别,因为这也是最近出现最频繁的名词,手机、交通、安防等领域都涉及到了人脸识别技术,但是大家应该把眼光放远一些,就会看到...

43360
来自专栏机器学习算法工程师

《机器学习》笔记-集成学习(8)

作者:刘才权 编辑:祝鑫泉 前 言 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中...

40060
来自专栏数据派THU

独家 | 一文读懂集成学习(附学习资源)

本文是数据派研究部“集成学习月”的第一篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 集成算法(Ensem...

37150
来自专栏AI2ML人工智能to机器学习

一个奇异值的江湖 -- 机器学习观

前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。

9320

扫码关注云+社区

领取腾讯云代金券