我有一个推特mysql转储。我想在这个垃圾堆上造个分类器。我想知道是否有可用的包可以使用,以及我应该使用什么类型的分类器。我想用java构建这个分类器。
发布于 2011-11-05 06:54:13
我建议您使用WEKA:http://www.cs.waikato.ac.nz/ml/weka/ -- WEKA包含大量数据挖掘算法和实用程序。
它有一个GUI,你可以在你的数据上试验各种分类器和过滤器的配置和组合,当你构建了一个好的模型时,你可以将WEKA嵌入到你的java程序中(它也是java),并将它与预先构建的模型一起使用来预测类,或者使用它来不断地改进模型。或者,在使用WEKA进行实验之后,您可以在自己的应用程序中实现生成的决策树或其他任何东西,这样就不必包含WEKA。
您可能希望使用推文的“词袋”表示,并使用多层感知器、朴素贝叶斯或J48等分类器,所有这些都可以在WEKA中进行实验。
查看这个页面:http://weka.wikispaces.com/Text+categorization+with+WEKA --页面底部有一个文本分类示例。
干杯,
发布于 2011-11-06 18:32:10
http://mloss.org/software/downloads/这个链接有一些包。(与机器学习相关)这是为那些可能有兴趣做同样事情的人准备的。因此回答了我自己的问题。好好享受吧。
https://stackoverflow.com/questions/8015260
复制相似问题