问泰语Maxent模型生成
EN

Stack Overflow用户

提问于 2017-04-28 13:13:35

回答 1查看 72关注 0票数 1

在使用ApacheOpenNlp为泰语等语言创建模型时，使用分词化的语料库来训练MxentModel是好的，还是应该使用未分词化的句子。

发布于 2017-04-28 20:08:32

是的，你应该标记化你的训练语料库和在运行时，你的句子。

例如，如果您有一个名称查找器训练语料库，那么使用相同的语料库训练一个分词器是很容易的。从命令行，您可以运行

sh bin/opennlp TokenizerTrainer.namefinder

它将训练来自名称查找器语料库的分词器。

更新：此answer解释如何使用旧的泰国模型。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43672410

复制

相似问题

问泰语Maxent模型生成EN