在垃圾邮件检测和HAM检测中,我的准确率分别达到了95%和94 %,但我相信通过关联规则挖掘可以进一步改进它。p(c)表示特定类别的概率(在我的例子中是垃圾邮件或哈姆)。
p(f1,f2,f3.fn/ c )表示单词f1,f2...fn在c类中的可能性。但是,在计算方程2.7时,我们假设了大量的词假设和条件独立性,它们近似于精度(为了方便起见而假定)。例如,在垃圾邮件中存在单词幸运的单词彩票的可能性应该比单词my_name(mahesh)的存在更大。因此,单词的存在和它们的位置确实会影响概率。因