我试着在带注释的语料库上比较两个NER工具,我不确定哪一个是最好的度量标准,因为我以前从未使用过NER模型。具体来说,我只对一个类感兴趣,所以我想在这个特定的类上对它们进行评估。
发布于 2020-08-09 00:10:37
一个很好的起点是查看在NER共享任务:https://nlpprogress.com/english/named_实体_recognition.html中使用的评估度量。
通常,F1-得分可以用于一个特定的类,但是对于被计算为实例的是什么,有不同的选项:
(从记忆中写这篇文章,我可能会错过一些东西)
https://datascience.stackexchange.com/questions/79985
复制相似问题