文章/答案/技术大牛

发布

社区首页 >问答首页 >如何为橙色支持向量机训练准备文本数据？

问如何为橙色支持向量机训练准备文本数据？
EN

Stack Overflow用户

提问于 2011-11-17 22:34:47

回答 1查看 2.1K关注 0票数 0

我在2年前使用了NLTK分类器。现在我想学习使用橙色支持向量机进行文本分类。橙色教程中的支持向量机示例是iris.tab：

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

如果我想对文本进行分类，如何准备数据。是不是像下面这样？

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

请给我准备数据的不同方法的例子。token在支持向量机中能被看作是标签吗?如果不能，该怎么做？

非常提前谢谢你。

python

nlp

svm

orange

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-11-21 21:14:31

简短的回答是:不。

长答案:标签指的是您想要处理的文档类别。例如，如果您尝试将文档分类为两个类别，如垃圾邮件和垃圾邮件，则标签应为垃圾邮件和垃圾邮件。对于数据表示，您可以使用诸如词袋(http://en.wikipedia.org/wiki/Bag_of_words_model)之类的技术。

关于更多的信息，我建议如下：

使用支持向量机进行文本分类的http://www.igvita.com/2006/06/02/svm-text-classification/

Learning，http://www.cs.cornell.edu/People/tj/svmtcatbook/

，

文本分类

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8168858

复制

相似问题

问如何为橙色支持向量机训练准备文本数据？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为橙色支持向量机训练准备文本数据？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为橙色支持向量机训练准备文本数据？
EN