我正在使用Apache of -Speech标记器来识别文本集合中的单词类。我正在尝试评估标记器的性能,我想知道它可能是在哪些数据上训练的?存在于英语的模型的名称没有给出关于所使用的训练数据的任何提示。
Apache OpenNLP文档提到了几个语料库,这些语料库也可能被用来训练POS标签者。http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora
有谁知道如何找出英语POS模型是在哪些训练数据上训练的?
发布于 2015-05-05 14:33:43
是的,你是对的,在Opennlp中使用了几个语料库。
但是,如果您将看到OpenNLP Model页面,则会提到使用哪个数据集来训练模型,如下所示。
https://stackoverflow.com/questions/29999298
复制相似问题