我是Weka的初学者,我正在尝试用它来进行文本分类。我已经看到了如何使用StringToWordVector过滤器进行分类。我的问题是,有没有办法给我正在分类的文本添加更多的特征?例如,如果我想要向文本添加POS标签和命名实体标签,我如何在分类器中使用这些功能?
发布于 2014-03-24 22:50:33
这取决于数据集的格式和您执行的预处理步骤。例如,假设您已经为文本预先添加了POS标签,如下所示:
The_det dog_n barks_v ._p
因此,您可以构建一个特定的记号赋予器(请参阅weka.core.tokenizers
)来为每个单词生成两个记号,一个是" the“,另一个是"The_det”,这样您就可以保留标记信息。
如果您只想要带标签的单词,那么只需确保"_“不是weka.core.tokenizers.WordTokenizer
中的分隔符。
我的建议是同时拥有单词和标记的单词,因此更简单的方法是编写一个脚本,将文本和标记的文本连接起来。从一个包含"The dog barks“的文件和另一个包含"The_det dog_n barks_v ._p”的文件中,它将生成一个包含"The The_det dog dog_n barks barks_v . ._p“的文件。你甚至可以忘记顺序,除非你打算使用n-gram。
https://stackoverflow.com/questions/22587682
复制相似问题