对于一些语法错误和单词的误用,我深表抱歉。
我目前正在使用文本分类,试图对电子邮件进行分类。
经过研究,我发现多项式朴素贝叶斯和伯努利朴素贝叶斯更常用于文本分类。伯努利只关心这个词是否发生。多项式关心单词出现的次数。
对于高斯朴素贝叶斯,它通常用于连续数据和正态分布的数据,例如:身高,体重,但我们不使用高斯朴素贝叶斯进行文本分类的原因是什么?如果我们将其应用于文本分类,会发生什么不好的事情?
发布于 2021-07-01 19:27:56
我们使用基于数据集的算法,have.Bernoulli朴素贝叶斯擅长处理布尔/二进制属性,多项式朴素贝叶斯擅长处理离散值,高斯朴素贝叶斯擅长处理连续值。考虑三种情况1)考虑一个包含has_diabetes、has_bp、has_thyroid等列的数据集,然后将人员分类为健康或not.In。在这种情况下,Bernoulli NB将工作得很好。2)考虑一个数据集,其中包含不同科目的不同学生的分数,并且您希望预测学生是聪明的还是not.Then,在这种情况下,多项式NB将工作得很好。3)考虑一个包含学生体重的数据集,并且您正在预测他们的身高,那么在这种情况下GaussiaNB将很好地发挥作用。
发布于 2018-02-02 18:50:14
贝叶斯分类器使用概率规则,您提到的三个规则与以下规则相关:
贝叶斯分布概率:https://en.wikipedia.org/wiki/Bayesian_probability
(贝叶斯分布):
您必须选择要针对您拥有的数据使用的概率规则(或全部尝试)。
我认为你在网站或研究论文中读到的内容与电子邮件数据通常遵循伯努利分布或多项式分布的事实有关。你可以,我鼓励你尝试高斯分布,你应该很快就能弄清楚,如果你的数据可以用高斯分布拟合。
然而,我建议你阅读上面的链接,如果你有一个为什么解决方案A或B比解决方案C更好的原因,你会对你的工作有更好的理解。
https://stackoverflow.com/questions/48580762
复制相似问题