首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >文章中朴素的贝叶斯

文章中朴素的贝叶斯
EN

Data Science用户
提问于 2015-09-05 13:49:06
回答 1查看 174关注 0票数 6

使用维基百科上朴素的Bayes垃圾邮件过滤文章(https://en.wikipedia.org/wiki/Naive_贝耶斯_垃圾邮件_过滤)

是二元多项式方程还是Bernoulli形式?

在本文中,讨论了许多朴素贝叶斯算法:垃圾邮件过滤和朴素贝叶斯-哪个朴素贝叶斯?http://www.aueb.gr/users/ion/docs/ceas2006_paper.pdf

本文认为二元多项式NB的性能最好。

如果它不是多项式,那么需要什么变化才能做到这一点?

EN

回答 1

Data Science用户

发布于 2018-01-30 22:14:23

首先,有不同的朴素贝叶斯算法。但它们都是基于相同的原理,即Bayes定理,其中特征被假定是独立的。

以下是关于何时用于垃圾邮件检测(或一般的文档分类)的简短指南:

  • 每个电子邮件都被表示为一个二进制向量,在这种情况下,电子邮件中是否存在一个单词就像它不存在一样重要。例如,"viagra“在电子邮件中的事实可能意味着它是”垃圾邮件“,而它并不意味着它可能是”非垃圾邮件“。
  • 具有布尔特性的多项式朴素贝叶斯表示每个电子邮件都是一个二进制向量,在这种情况下,电子邮件中是否存在一个单词比不存在更重要。例如,如果“奶奶”在电子邮件中,它可能意味着“不是垃圾邮件”,但如果它不在电子邮件中,它不一定意味着它是“垃圾邮件”。
  • 具有词频的多项式朴素贝叶斯,每封电子邮件用每个单词发生的次数来表示。
  • 高斯朴素贝叶斯这是处理连续值,所以这不适用于这里。
票数 6
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/8015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档