首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >spaCy token.tag_全集

spaCy token.tag_全集
EN

Stack Overflow用户
提问于 2016-06-03 09:46:20
回答 6查看 20.8K关注 0票数 14

token.tag_spaCy中的正式文档如下:

一种细粒度、更详细的标记,表示单词类和令牌的一些基本形态信息。这些标记主要用于后续模型的良好特性,特别是语法解析器。他们是语言和树岸依赖。标记者被训练来预测这些细粒度的标记,然后使用一个映射表将它们简化为粗粒度的.pos标记。

但是它没有列出所有可用的标签和每个标签的解释。我在哪里可以找到它?

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2016-06-03 10:40:36

最后,我在spaCy的源代码glossary.py中找到了它,这个链接解释了不同标签的含义。

票数 31
EN

Stack Overflow用户

发布于 2020-02-19 15:07:03

token.tag_的可用值是语言特定的。这里的语言不是英语或葡萄牙语,我指的是'en_core_web_sm‘或'pt_core_news_sm’。换句话说,它们是特定于语言模型的,它们是在TAG_MAP中定义的,这是可定制的和可训练的。如果您不对其进行自定义,它将是该语言的默认TAG_MAP。

在写这个答案的时候,spacy.io./模型列出了所有经过预先训练的模型及其标签方案。

现在,为了解释。如果你正在使用英语或德语文本,你是幸运的!您可以使用spacy.explain()或访问github上的术语表来获取完整列表。如果您正在使用其他语言,则token.pos_值始终是通用依赖项的值,并且不管如何都会工作。

如果您正在使用其他语言,要完成对标记的完整解释,您必须在模型页面中列出的源中查找它们,以了解您感兴趣的模型。例如,对于葡萄牙语,我必须跟踪解释的标签在葡萄牙UD博斯克语料库用来训练模型。

票数 5
EN

Stack Overflow用户

发布于 2018-05-24 20:46:42

以下是标签的列表:

代码语言:javascript
运行
复制
TAG_MAP = [
    ".",        
    ",",        
    "-LRB-",    
    "-RRB-",    
    "``",       
    "\"\"",     
    "''",       
    ",",        
    "$",        
    "#",        
    "AFX",      
    "CC",       
    "CD",       
    "DT",       
    "EX",       
    "FW",       
    "HYPH",     
    "IN",       
    "JJ",       
    "JJR",      
    "JJS",      
    "LS",       
    "MD",       
    "NIL",      
    "NN",       
    "NNP",      
    "NNPS",     
    "NNS",   
    "PDT",   
    "POS",   
    "PRP",   
    "PRP$",  
    "RB",    
    "RBR",   
    "RBS",   
    "RP",    
    "SP",    
    "SYM",   
    "TO",    
    "UH",    
    "VB",    
    "VBD",  
    "VBG",  
    "VBN",  
    "VBP",  
    "VBZ",  
    "WDT",  
    "WP",   
    "WP$",  
    "WRB",  
    "ADD",  
    "NFP",   
    "GW",    
    "XX",    
    "BES",   
    "HVS",   
    "_SP",   
]
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37611061

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档