在使用ApacheOpenNlp为泰语等语言创建模型时,使用分词化的语料库来训练MxentModel是好的,还是应该使用未分词化的句子。
发布于 2017-04-28 20:08:32
是的,你应该标记化你的训练语料库和在运行时,你的句子。
例如,如果您有一个名称查找器训练语料库,那么使用相同的语料库训练一个分词器是很容易的。从命令行,您可以运行
sh bin/opennlp TokenizerTrainer.namefinder它将训练来自名称查找器语料库的分词器。
更新:此answer解释如何使用旧的泰国模型。
https://stackoverflow.com/questions/43672410
复制相似问题