文章/答案/技术大牛

发布

社区首页 >问答首页 >网页的二进制分类

问网页的二进制分类
EN

Stack Overflow用户

提问于 2012-01-13 17:14:44

回答 3查看 869关注 0票数 3

我们对网页的二进制分类很感兴趣，例如电子商务和非电子商务。

目前，我们正在使用带有朴素贝叶斯算法的Mahout库。我们正在从现有的分类URL和相同的特征集创建训练数据。

就准确性而言，执行此任务的最佳可能方法是什么？

我需要在算法、库(与JAVA一起使用)或任何更好的想法方面的帮助，以帮助这种类型的分类。

提前谢谢。

java

machine-learning

classification

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-01-13 17:34:28

这个问题非常笼统，所以我只能添加一般性的信息。

提高分类质量的方法有(按重要性排序)：

使用词化和/或Stemming仅使用基本单词和单词过滤器来删除无用的单词
训练不同语言的单独分类器

票数 3

Stack Overflow用户

发布于 2012-01-13 18:08:42

你可以尝试使用一些现有的，调得很好的程序，...

CRM411被设计成一个垃圾邮件过滤器，但它足够通用，可以做你想做的事情。人们用它来分类简历和材料。它有很多引擎(HMM、SVM、CLUMP、贝叶斯等)。试试看。

票数 1

Stack Overflow用户

发布于 2012-01-13 17:26:25

This one是关于NB分类器的算法的一个很好的演示。

丢弃最常见的单词将导致更好的预测。IDF可以是一个很好的过滤掉这些单词的工具。另请参阅Wikipedia。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8848204

复制

相似问题

问网页的二进制分类
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网页的二进制分类EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网页的二进制分类
EN