我在2年前使用了NLTK分类器。现在我想学习使用橙色支持向量机进行文本分类。橙色教程中的支持向量机示例是iris.tab:
sepal length sepal width petal length petal width iris
c c c c d
class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
如果我想对文本进行分类,如何准备数据。是不是像下面这样?
token frequency tokenlength
the 23 3
for 21 3
at 10 2
请给我准备数据的不同方法的例子。token在支持向量机中能被看作是标签吗?如果不能,该怎么做?
非常提前谢谢你。
发布于 2011-11-21 21:14:31
简短的回答是:不。
长答案:标签指的是您想要处理的文档类别。例如,如果您尝试将文档分类为两个类别,如垃圾邮件和垃圾邮件,则标签应为垃圾邮件和垃圾邮件。对于数据表示,您可以使用诸如词袋(http://en.wikipedia.org/wiki/Bag_of_words_model)之类的技术。
关于更多的信息,我建议如下:
使用支持向量机进行文本分类的http://www.igvita.com/2006/06/02/svm-text-classification/
,
https://stackoverflow.com/questions/8168858
复制相似问题