机器学习课程_笔记05

jeremyxu

发布于 2018-05-10 18:40:15

5800

发布于 2018-05-10 18:40:15

文章被收录于专栏：jeremy的技术点滴jeremy的技术点滴

生成学习算法

logistic回归的执行过程就是要搜索这样的一条直线，能够将两类数据分隔开。

判别学习算法描述为以下公式：

所以logistics回归是判别学习算法的一个例子。

一个生成学习算法给定所属的类的情况下显示某种特定特征的概率。其计算公式如下：

一个生成学习算法一开始是对(P(X|y))进行建模，而不是对(P(y|X))。

高斯判别分析

推导过程：

生成学习算法与判别学习算法的对比

这里有几个结论：

如果(X|y)服从高斯分布，那么(P(y=1|X))的后验分布函数将是一个logistics函数。
如果P(X|y=1) ~ Poisson(\lambda_1)，P(X|y=0) ~ Poisson(\lambda_0)，那么(P(y=1|X))的后验分布函数将是一个logistics函数。
如果P(X|y=1)、P(X|y=0)服从某个相同的指数分布族，那么的后验分布函数将是一个logistics函数。

因此(X|y)服从高斯分布或泊松分布是比\(y|X\)服从logistics分布更强的假设。

如果(P(X|y))服从高斯分布的假设假设或大概成立，那么高斯判别算法的表现将会更好，将会优于logistic回归，因为高斯判别算法利用了更多的关于数据的信息。相反如果不确定(P(X|y))的分布情况，那么logistic回归的表现可能会更好。

高斯判别分析为了拟合出一个还不错的模型，通常需要更少的数据。而logistic回归算法做了更弱的假设，与高斯判别分析相比，为了拟合出模型它需要多的样本。

朴素贝叶斯方法

这里先讲了一个创建特征向量\(X\)来表示某一封邮件的办法。

假设\(X ∈ \{0, 1\}^n，n=50000\)，现在要对\(P(X|y)\)建模，则\(X\)有\(2^{50000}\)个可能，如果使用多项式分布的softmax回归，则需要得到\(2^{50000}-1\)个参数，这样计算量太大了。

朴素贝叶斯方法，推导过程如下：

这里讲朴素贝叶斯讲得比较复杂，如果想比较简单地理解，推荐看看阮一峰的一篇文章-朴素贝叶斯分类器的应用。

Laplace平滑

为了避免一些没有见过的事件，算法认为这些事件不可能发生，于是可以使用Laplace平滑改进此问题。方法如下：

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2017-06-12，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度