首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >未登录词和已知词的词性

未登录词和已知词的词性
EN

Stack Overflow用户
提问于 2013-05-20 13:15:15
回答 2查看 1.6K关注 0票数 0

未登录词词性标注与已知词词性标注有何不同。有没有什么工具可以预测单词的词性标注..

EN

回答 2

Stack Overflow用户

发布于 2013-05-21 01:24:11

处理词汇表外单词的一种常见方法是将训练语料库中出现频率较低(例如,频率< 3)的所有单词替换为标记* rare *,因此标签器可以大致捕获如何标记稀有单词。然后在测试阶段,只需将标签者的词汇表中没有的每个单词都视为*稀有*。

一种更简单的方法是用大多数标记来标记每个词汇表外的单词。下面的代码使用nltk工具包将每个看不见的单词标记为'NN‘。

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

票数 4
EN

Stack Overflow用户

发布于 2015-11-25 09:21:22

TnT tagger's paper提出了一种有效的标注未登录单词的方法。

另一种使用词典处理未知单词的方法可以在this article中找到。文章指出,与TnT在保加利亚、捷克、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语等13种语言上的标注相比,基于词典的方法获得了有希望的未登录词标注结果。您还可以在文章中找到TnT和其他两个词性以及13种语言的形态标记器的准确性结果(针对已知词和未知词)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16643018

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档