机器学习实战 - 读书笔记(04) - 朴素贝叶斯

核心公式 - 贝叶斯准则

p(c|x) = \frac{p(x|c)p(c)}{p(x)}

  • p(c|x) 是在x发生的情况下,c发生的概率。
  • p(x|c) 是在c发生的情况下,x发生的概率。
  • p(c) 是c发生的概率。
  • p(x) 是x发生的概率。

规则

如果P(c₁|x) > P(c₂|x),那么属于类别c₁。 如果P(c₁|x) < P(c₂|x),那么属于类别c₂。

等价变化

p(c1|x) = \frac{p(x|c1)p(c1)}{p(x)} p(c2|x) = \frac{p(x|c2)p(c2)}{p(x)} Therefore, comparing p(c1|x) and p(c2|x) are same as comparing \frac{p(x|c1)p(c1)}{p(x)} and \frac{p(x|c2)p(c2)}{p(x)} same as comparing p(x|c1)p(c1) and p(x|c2)p(c2)

多个独立特征的变化

p(x|c1)中,x是多个独立特征,即x=x_0,x_1...x_n, 则: p(x|c1)=p(x_0,x_1...x_n|c1) p(x|c1)=p(x_0|c1)p(x_1|c1)...p(x_n|c1)

下溢出问题

为了解决下溢出问题,这是由于太多很小的数相乘造成的,所以程序会下溢出或者得到不正确的答案。 在代数中有ln(a*b) = ln(a)+ln(b),于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时,采用自然对数进行处理不会有任何损失。 Therefore, comparing p(c1|x) and p(c2|x) same as comparing log(p(x_0|c1)) + log(p(x_1|c1)) + ... + log(p(x_n|c1) + log(p(c1))

and

log(p(x_0|c2)) + log(p(x_1|c2)) + ... + log(p(x_n|c2) + log(p(c2))

实际应用

  • 过滤侮辱性留言
  • 过滤垃圾邮件

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏算法channel

机器学习储备(9):matplotlib绘图原理及实例

? matplotlib绘图的基本元素都包括都哪些?常用的绘图API如何应用。本文做个入门介绍吧。 1 基本元素 通过一个大部分都是用默认值的例子,初步认识下...

35880
来自专栏区块链

15分钟破解网站验证码

概述   很多开发者都讨厌网站的验证码,特别是写网络爬虫的程序员,而网站之所以设置验证码,是为了防止机器人访问网站,造成不必要的损失。现在好了,随着机器学习技术...

24070
来自专栏程序员互动联盟

【专业技术】OpenGL操作技巧介绍

存在问题: opengl中如何渲染管线? 解决方案: 绝大数OpenGL实现都有相似的操作顺序,一系列相关的处理阶段称为OpenGL渲染管线。图1-2显示了这些...

29720
来自专栏PPV课数据科学社区

TensorFlow 数据集和估算器介绍

TensorFlow 1.3 引入了两个重要功能,您应当尝试一下: 数据集:一种创建输入管道(即,将数据读入您的程序)的全新方式。 估算器:一种创建 Ten...

33190
来自专栏机器之心

从框架优缺点说起,这是一份TensorFlow入门极简教程

23680
来自专栏FreeBuf

中文点选验证码之自动识别

某次测试中遇到了汉字点选的验证码,看着很简单,尝试了一下发现有两种简单的识别方法,终于有空给重新整理一下,分享出来。

1.3K40
来自专栏章鱼的慢慢技术路

《算法图解》第七章笔记_迪杰斯特拉算法

20140
来自专栏IT派

从框架优缺点说起,这是一份TensorFlow入门极简教程

这一系列教程分为 6 部分,从为什么选择 TensorFlow 到卷积神经网络的实现,介绍了初学者所需要的技能。机器之心在本文介绍了 PyTorch 和 Caf...

21820
来自专栏CreateAMind

神经网络图灵机(Neural Turing Machines, NTM)论文完整翻译

Alex Graves gravesa@google.com Greg Wayne gregwayne@google.com Ivo Danihelka dan...

10920
来自专栏Soul Joy Hub

TensorFlow指南(一)——上手TensorFlow

http://blog.csdn.net/u011239443/article/details/79066094 TensorFlow是谷歌开源的深度学习库...

52850

扫码关注云+社区

领取腾讯云代金券