首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >网页的二进制分类

网页的二进制分类
EN

Stack Overflow用户
提问于 2012-01-13 17:14:44
回答 3查看 869关注 0票数 3

我们对网页的二进制分类很感兴趣,例如电子商务和非电子商务。

目前,我们正在使用带有朴素贝叶斯算法的Mahout库。我们正在从现有的分类URL和相同的特征集创建训练数据。

就准确性而言,执行此任务的最佳可能方法是什么?

我需要在算法、库(与JAVA一起使用)或任何更好的想法方面的帮助,以帮助这种类型的分类。

提前谢谢。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-01-13 17:34:28

这个问题非常笼统,所以我只能添加一般性的信息。

提高分类质量的方法有(按重要性排序):

  • 使用词化和/或Stemming仅使用基本单词和单词过滤器来删除无用的单词
  • 训练不同语言的单独分类器
票数 3
EN

Stack Overflow用户

发布于 2012-01-13 18:08:42

你可以尝试使用一些现有的,调得很好的程序,...

CRM411被设计成一个垃圾邮件过滤器,但它足够通用,可以做你想做的事情。人们用它来分类简历和材料。它有很多引擎(HMM、SVM、CLUMP、贝叶斯等)。试试看。

票数 1
EN

Stack Overflow用户

发布于 2012-01-13 17:26:25

This one是关于NB分类器的算法的一个很好的演示。

丢弃最常见的单词将导致更好的预测。IDF可以是一个很好的过滤掉这些单词的工具。另请参阅Wikipedia

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8848204

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档