开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >基于Weka的文本分类

问基于Weka的文本分类
EN

Stack Overflow用户

提问于 2014-03-23 14:10:46

回答 1查看 549关注 0票数 0

我是Weka的初学者，我正在尝试用它来进行文本分类。我已经看到了如何使用StringToWordVector过滤器进行分类。我的问题是，有没有办法给我正在分类的文本添加更多的特征？例如，如果我想要向文本添加POS标签和命名实体标签，我如何在分类器中使用这些功能？

feature-selection

document-classification

text-classification

EN

回答 1

Stack Overflow用户

发布于 2014-03-24 22:50:33

这取决于数据集的格式和您执行的预处理步骤。例如，假设您已经为文本预先添加了POS标签，如下所示：

The_det dog_n barks_v ._p

因此，您可以构建一个特定的记号赋予器(请参阅weka.core.tokenizers)来为每个单词生成两个记号，一个是" the“，另一个是"The_det”，这样您就可以保留标记信息。

如果您只想要带标签的单词，那么只需确保"_“不是weka.core.tokenizers.WordTokenizer中的分隔符。

我的建议是同时拥有单词和标记的单词，因此更简单的方法是编写一个脚本，将文本和标记的文本连接起来。从一个包含"The dog barks“的文件和另一个包含"The_det dog_n barks_v ._p”的文件中，它将生成一个包含"The The_det dog dog_n barks barks_v . ._p“的文件。你甚至可以忘记顺序，除非你打算使用n-gram。

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22587682

复制

相似问题