朴素贝叶斯分类器不起作用，首选垃圾邮件

我正在学习使用机器学习技术进行垃圾邮件检测，我在上找到的一篇文章建议我从朴素的贝叶斯分类器开始。我的问题是:如果我正在测量的属性是谨慎的，而不是连续的，那么应该如何合并它？你还能使用朴素的贝叶斯分类器吗？基本上，如果我的值是身高、体重、脚码和最喜欢的运动，我还能使用朴素的贝叶斯分类器吗？

浏览 1提问于2014-11-15得票数 0

1回答

为什么支持向量机回归(SMOreg)在weka中会变灰？

、、、

训练数据集将一些文档分类为垃圾邮件/火腿。我需要使用一个模型，以便每个测试文档得到一个介于0-1 (0是垃圾邮件，1是火腿)之间的值。我使用了朴素的贝叶斯分类器，它给出了属于火腿或垃圾邮件的每个测试实例的概率。但支持向量机回归(weka中的SMOreg)往往是灰色的。

浏览 0提问于2014-03-30得票数 0

5回答

蟒蛇中有朴素的贝叶斯分类器吗？

、、

我尝试过用于朴素贝叶斯分类的Orange框架。

浏览 2提问于2010-04-05得票数 22

1回答

我已经使用NLTK朴素贝叶斯方法训练了一个垃圾邮件分类器。垃圾邮件集和非垃圾邮件集在训练中都有20,000个单词实例。我注意到，当遇到未知功能时，classifier会给出垃圾邮件的0.5概率： >>> print classifier.prob_classify({'unkown_words':True}).prob但是，我想将的垃圾邮件概率设置为0.4，因为未知功能更可能来自普通用户。我如何用NLTK实现它？

浏览 1提问于2013-05-27得票数 3

回答已采纳

1回答

检测低质量、用户创建的文本内容。

我想自动排除或标记，提交的文本内容是“垃圾邮件”或“低质量”(主观的，我知道)。显然，我想检测的内容是攻击性或经典的垃圾邮件。我还想检测那些毫无意义或毫无意义的内容。我尝试过AWS理解，没有任何定制的培训，可以准确地检测文本的情感，它似乎没有检测到低质量或垃圾邮件出框。它支持自定义分类器的培训，您只需提供包含类/文档对的csv。

浏览 0提问于2020-04-13得票数 2

3回答

什么是好的机器学习编程练习？

、

理想情况下，它们将具有以下特点：

浏览 6提问于2010-11-17得票数 26

回答已采纳

1回答

如何在垃圾邮件过滤中嵌入带有朴素贝叶斯分类器的聚合规则？

、、、

实际上，我正在研究用于过滤邮件的朴素贝叶斯分类器。在垃圾邮件检测和HAM检测中，我的准确率分别达到了95%和94 %，但我相信通过关联规则挖掘可以进一步改进它。我正在计算训练数据集中邮件中单词的可能性和先验概率，并将测试邮件映射到垃圾邮件或HAM类，如下所示，哪里, p(f1，f2，f3.fn/ c )表示单词f1，f2...fn在c类中的可能性。例如，在垃圾邮

浏览 0提问于2017-02-14得票数 1

2回答

文本分类问题的探讨

、

这里的很多词汇对我来说都是新的，所以如果我说错了，请原谅我。房屋:有几堵墙、一些窗户和一个屋顶的建筑我们有一个第三方描述了他们：给这些松散的自然语言描述什么将“我的房子”归类为“房子”的好方法。一个简单的单词计数方法是否适用，也许可以使用某种类型的字典{"the“、"a”等等。有其他算法需要考虑吗？

浏览 0提问于2016-10-19得票数 0

3回答

我如何分类文本考虑语序，而不是仅仅使用一个包-字的方法？

我制作了一个朴素的贝叶斯分类器，它使用单词袋技术对留言板上的垃圾邮件进行分类。这是可行的，但我认为，如果我的模型考虑的词顺序和短语，我可以得到更好的结果。(例如：“女孩”和“生活”可能不会引发高垃圾邮件评分，尽管“活女孩”最有可能是垃圾邮件)。我如何建立一个考虑词序的模型？

浏览 0提问于2014-10-02得票数 11

2回答

如何通过机器准确地区分蟒蛇和蛇的文章？

、

我试着创建一个像planet这样的python语言新闻聚合网站，我从G+和twitter等社交媒体上抓取了python新闻，并通过一些python关键字提供了一些python feed。有没有更好的方法来做到这一点？ for dic in snack_dic: i

浏览 0提问于2012-02-15得票数 1

4回答

当前最佳垃圾邮件过滤算法

、

目前检测垃圾邮件最好的方法是什么？尤其是在移动文本消息上。是否有任何资源或比较分析？

浏览 5提问于2010-12-23得票数 5

回答已采纳

1回答

从文档中提取文本中的“噪声”检测

、、

字符分布随机Hmax组织c) (指物种之上的字符)BB+++B 4+熵(物种的性状多样性我的问题是:我如何识别这种“噪音”，并将其与正常的文本块区分开来？有什么现有的算法吗？我在Ruby中工作

浏览 1提问于2012-06-08得票数 1

回答已采纳

1回答

如何从朴素贝叶斯分类器中正确计算垃圾邮件分数作为固定特征和概率的组合？

我正在构建一个学习垃圾邮件/火腿电子邮件分类器作为一项任务。它不应该是一个很好的通用分类器，而是一个可以在一小组标记的用户电子邮件上学习的分类器(大约)。(假设垃圾邮件/火腿和个人特性的分发仍然大致相同，则对其余的信息进行分类。我首先实现了一个简单的带有日志概率的朴素贝叶斯，其基础是：https://www.cs.rhodes.edu/~kirlinp/courses/ai/f18/projects/proj3/naive-baye

浏览 0提问于2022-12-20得票数 1

1回答

我可以将StringDocument <Type>还原为字符串吗？(TextAnalysis.jl)

、

我正在使用Julia TextAnalysis.jl包中的朴素贝叶斯分类器模型制作垃圾邮件分类器。文本预处理functions (如remove_corrupt_utf8!

浏览 12提问于2020-01-27得票数 3

回答已采纳

1回答

确定带宽数据中的“噪声”

、、

我有带宽数据，可以按吨位和小时识别协议的使用情况。根据协议，您可以分辨出某个特定协议在该小时内正在连接的内容与实际使用的内容(1000比特与百万或数十亿比特)。问题是，当查看每个协议时，它们都严重地向右倾斜。其中80%的记录都是刚刚连接的或者我称之为“噪音。我的任务是分离出这些噪音，并只关注协议实际使用时的情况。我的同学们都是手工操作，并以较低的门槛删除。我希望有一种方法可以自动化这一点，并使用统计数据，而不仅仅是选择一个“看起来很好”的阈值。我们有大约30个不同的协议，每个协议都有不同的比特量，这将代表“噪声”，即一个下载原型可能有1000个比特，而一个消息传递应用程序可能有75个比特，当

浏览 17提问于2019-03-27得票数 0

1回答

基于“词袋”方法的朴素贝叶斯主题检测

、、、

我正在尝试实现一种朴素的贝叶斯方法来查找给定文档或词流的主题。有没有朴素的贝叶斯方法，我可以查一下？此外，我还在努力改进我的字典。最初，我有一堆单词映射到一个主题(硬编码)。

浏览 4提问于2010-05-06得票数 12

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在垃圾邮件-非垃圾邮件分类器中获得突出的单词？

用于垃圾邮件过滤的贝叶斯网络