我们对网页的二进制分类很感兴趣,例如电子商务和非电子商务。
目前,我们正在使用带有朴素贝叶斯算法的Mahout库。我们正在从现有的分类URL和相同的特征集创建训练数据。
就准确性而言,执行此任务的最佳可能方法是什么?
我需要在算法、库(与JAVA一起使用)或任何更好的想法方面的帮助,以帮助这种类型的分类。
提前谢谢。
发布于 2012-01-13 17:34:28
这个问题非常笼统,所以我只能添加一般性的信息。
提高分类质量的方法有(按重要性排序):
发布于 2012-01-13 18:08:42
你可以尝试使用一些现有的,调得很好的程序,...
CRM411被设计成一个垃圾邮件过滤器,但它足够通用,可以做你想做的事情。人们用它来分类简历和材料。它有很多引擎(HMM、SVM、CLUMP、贝叶斯等)。试试看。
发布于 2012-01-13 17:26:25
This one是关于NB分类器的算法的一个很好的演示。
丢弃最常见的单词将导致更好的预测。IDF可以是一个很好的过滤掉这些单词的工具。另请参阅Wikipedia。
https://stackoverflow.com/questions/8848204
复制相似问题