首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于Weka的文本分类

基于Weka的文本分类
EN

Stack Overflow用户
提问于 2014-03-23 14:10:46
回答 1查看 549关注 0票数 0

我是Weka的初学者,我正在尝试用它来进行文本分类。我已经看到了如何使用StringToWordVector过滤器进行分类。我的问题是,有没有办法给我正在分类的文本添加更多的特征?例如,如果我想要向文本添加POS标签和命名实体标签,我如何在分类器中使用这些功能?

EN

回答 1

Stack Overflow用户

发布于 2014-03-24 22:50:33

这取决于数据集的格式和您执行的预处理步骤。例如,假设您已经为文本预先添加了POS标签,如下所示:

The_det dog_n barks_v ._p

因此,您可以构建一个特定的记号赋予器(请参阅weka.core.tokenizers)来为每个单词生成两个记号,一个是" the“,另一个是"The_det”,这样您就可以保留标记信息。

如果您只想要带标签的单词,那么只需确保"_“不是weka.core.tokenizers.WordTokenizer中的分隔符。

我的建议是同时拥有单词和标记的单词,因此更简单的方法是编写一个脚本,将文本和标记的文本连接起来。从一个包含"The dog barks“的文件和另一个包含"The_det dog_n barks_v ._p”的文件中,它将生成一个包含"The The_det dog dog_n barks barks_v . ._p“的文件。你甚至可以忘记顺序,除非你打算使用n-gram。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22587682

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档