问Apache OpenNLP词性标记器:在哪个数据集上训练？
EN

Stack Overflow用户

提问于 2015-05-02 14:39:49

回答 1查看 460关注 0票数 1

我正在使用Apache of -Speech标记器来识别文本集合中的单词类。我正在尝试评估标记器的性能，我想知道它可能是在哪些数据上训练的？存在于英语的模型的名称没有给出关于所使用的训练数据的任何提示。

Apache OpenNLP文档提到了几个语料库，这些语料库也可能被用来训练POS标签者。http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

有谁知道如何找出英语POS模型是在哪些训练数据上训练的？

发布于 2015-05-05 14:33:43

是的，你是对的，在Opennlp中使用了几个语料库。

但是，如果您将看到OpenNLP Model页面，则会提到使用哪个数据集来训练模型，如下所示。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29999298

复制

相似问题

问Apache OpenNLP词性标记器:在哪个数据集上训练？EN