开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >CS229 课程笔记之四：生成学习算法

CS229 课程笔记之四：生成学习算法

作者头像

口仆

修改于 2020-08-17 18:20:57

3500

修改于 2020-08-17 18:20:57

举报

文章被收录于专栏：用户2133719的专栏

上图表示的分布均值均为，对应的协方差矩阵为：

左边的图就是标准正态分布，而可以看到随着非对角线上数值的增大，分布在45度方向上压缩的幅度越大，通过下面的轮廓图可以更清楚地展现这个特点：

下面是另一组例子:

上图对应的协方差为：

用图形来表示，该算法可以表示为下图：

这与逻辑回归的形式完全相同。但一般来说，对于相同的数据集两种算法会给出不同的边界，究竟哪一个更好呢？

一个有趣的结论是：

❝如果属于多元高斯分布（共享），那么一定是逻辑函数，反之不成立。 ❞

总结一下，GDA 进行了更强的模型假设并且数据有效性更高（需要更少的数据来学习），但其前提条件是模型假设正确或近似正确；逻辑回归进行较弱的假设，对于模型假设偏离的鲁棒性更好。如果数据集实际上不是高斯分布，那么在数据有限的情况下，逻辑回归一般会表现得比 GDA 更好。因此，实际中使用逻辑回归的情况比 GDA 多得多。

3 朴素贝叶斯算法

3.1 算法概述

在高斯判别分析中，输入是连续变量。现在我们要谈谈一个不同的生成学习算法，其中是「离散变量」。

现在我们有（以50000维度为例）：

第一个等式来自于概率的基本性质；第二个等式则使用了朴素贝叶斯假设。即使这个假设在现实中不一定成立，但其实际的效果还是不错的。

在之前的例子中，输入的每一维特征都是是二元的，其对应的分布是伯努利分布。而当特征是多元时，其对应的分布应该用「多项式分布」建模。

实际上，即便一些原始的输入数据是连续值，我们可以通过一个映射表将连续值映射为离散值，然后运用朴素贝叶斯方法进行建模：

当原始连续值的数据不能很好的用多元正态分布进行建模时，将其离散化再使用朴素贝叶斯建模往往会取得更好的效果。

3.2 拉普拉斯平滑

4 思维导图

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-02-04，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自口仆微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

3 朴素贝叶斯算法
- 3.1 算法概述
- 3.2 拉普拉斯平滑
4 思维导图