前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习课程_笔记05

机器学习课程_笔记05

作者头像
jeremyxu
发布2018-05-10 18:40:15
5800
发布2018-05-10 18:40:15
举报

生成学习算法

logistic回归的执行过程就是要搜索这样的一条直线,能够将两类数据分隔开。

判别学习算法描述为以下公式:

所以logistics回归是判别学习算法的一个例子。

一个生成学习算法给定所属的类的情况下显示某种特定特征的概率。其计算公式如下:

一个生成学习算法一开始是对(P(X|y))进行建模,而不是对(P(y|X))。

高斯判别分析

推导过程:

生成学习算法与判别学习算法的对比

这里有几个结论:

  1. 如果(X|y)服从高斯分布,那么(P(y=1|X))的后验分布函数将是一个logistics函数。
  2. 如果P(X|y=1) ~ Poisson(\lambda_1),P(X|y=0) ~ Poisson(\lambda_0),那么(P(y=1|X))的后验分布函数将是一个logistics函数。
  3. 如果P(X|y=1)、P(X|y=0)服从某个相同的指数分布族,那么的后验分布函数将是一个logistics函数。

因此(X|y)服从高斯分布或泊松分布是比\(y|X\)服从logistics分布更强的假设。

如果(P(X|y))服从高斯分布的假设假设或大概成立,那么高斯判别算法的表现将会更好,将会优于logistic回归,因为高斯判别算法利用了更多的关于数据的信息。相反如果不确定(P(X|y))的分布情况,那么logistic回归的表现可能会更好。

高斯判别分析为了拟合出一个还不错的模型,通常需要更少的数据。而logistic回归算法做了更弱的假设,与高斯判别分析相比,为了拟合出模型它需要多的样本。

朴素贝叶斯方法

这里先讲了一个创建特征向量\(X\)来表示某一封邮件的办法。

假设\(X ∈ \{0, 1\}^n,n=50000\),现在要对\(P(X|y)\)建模,则\(X\)有\(2^{50000}\)个可能,如果使用多项式分布的softmax回归,则需要得到\(2^{50000}-1\)个参数,这样计算量太大了。

朴素贝叶斯方法,推导过程如下:

这里讲朴素贝叶斯讲得比较复杂,如果想比较简单地理解,推荐看看阮一峰的一篇文章-朴素贝叶斯分类器的应用

Laplace平滑

为了避免一些没有见过的事件,算法认为这些事件不可能发生,于是可以使用Laplace平滑改进此问题。方法如下:

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 生成学习算法
  • 高斯判别分析
  • 朴素贝叶斯方法
  • Laplace平滑
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档