首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何为橙色支持向量机训练准备文本数据?

如何为橙色支持向量机训练准备文本数据?
EN

Stack Overflow用户
提问于 2011-11-17 22:34:47
回答 1查看 2.1K关注 0票数 0

我在2年前使用了NLTK分类器。现在我想学习使用橙色支持向量机进行文本分类。橙色教程中的支持向量机示例是iris.tab:

代码语言:javascript
运行
复制
sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

如果我想对文本进行分类,如何准备数据。是不是像下面这样?

代码语言:javascript
运行
复制
token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

请给我准备数据的不同方法的例子。token在支持向量机中能被看作是标签吗?如果不能,该怎么做?

非常提前谢谢你。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-11-21 21:14:31

简短的回答是:不。

长答案:标签指的是您想要处理的文档类别。例如,如果您尝试将文档分类为两个类别,如垃圾邮件和垃圾邮件,则标签应为垃圾邮件和垃圾邮件。对于数据表示,您可以使用诸如词袋(http://en.wikipedia.org/wiki/Bag_of_words_model)之类的技术。

关于更多的信息,我建议如下:

使用支持向量机进行文本分类的http://www.igvita.com/2006/06/02/svm-text-classification/

  • Learning,http://www.cs.cornell.edu/People/tj/svmtcatbook/

  • 文本分类
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8168858

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档