logistic回归的执行过程就是要搜索这样的一条直线,能够将两类数据分隔开。
判别学习算法描述为以下公式:
所以logistics回归是判别学习算法的一个例子。
一个生成学习算法给定所属的类的情况下显示某种特定特征的概率。其计算公式如下:
一个生成学习算法一开始是对(P(X|y))进行建模,而不是对(P(y|X))。
推导过程:
生成学习算法与判别学习算法的对比
这里有几个结论:
因此(X|y)服从高斯分布或泊松分布是比\(y|X\)服从logistics分布更强的假设。
如果(P(X|y))服从高斯分布的假设假设或大概成立,那么高斯判别算法的表现将会更好,将会优于logistic回归,因为高斯判别算法利用了更多的关于数据的信息。相反如果不确定(P(X|y))的分布情况,那么logistic回归的表现可能会更好。
高斯判别分析为了拟合出一个还不错的模型,通常需要更少的数据。而logistic回归算法做了更弱的假设,与高斯判别分析相比,为了拟合出模型它需要多的样本。
这里先讲了一个创建特征向量\(X\)来表示某一封邮件的办法。
假设\(X ∈ \{0, 1\}^n,n=50000\),现在要对\(P(X|y)\)建模,则\(X\)有\(2^{50000}\)个可能,如果使用多项式分布的softmax回归,则需要得到\(2^{50000}-1\)个参数,这样计算量太大了。
朴素贝叶斯方法,推导过程如下:
这里讲朴素贝叶斯讲得比较复杂,如果想比较简单地理解,推荐看看阮一峰的一篇文章-朴素贝叶斯分类器的应用。
为了避免一些没有见过的事件,算法认为这些事件不可能发生,于是可以使用Laplace平滑改进此问题。方法如下: