token.tag_
在spaCy
中的正式文档如下:
一种细粒度、更详细的标记,表示单词类和令牌的一些基本形态信息。这些标记主要用于后续模型的良好特性,特别是语法解析器。他们是语言和树岸依赖。标记者被训练来预测这些细粒度的标记,然后使用一个映射表将它们简化为粗粒度的.pos标记。
但是它没有列出所有可用的标签和每个标签的解释。我在哪里可以找到它?
发布于 2016-06-03 10:40:36
最后,我在spaCy
的源代码glossary.py中找到了它,这个链接解释了不同标签的含义。
发布于 2020-02-19 15:07:03
token.tag_
的可用值是语言特定的。这里的语言不是英语或葡萄牙语,我指的是'en_core_web_sm‘或'pt_core_news_sm’。换句话说,它们是特定于语言模型的,它们是在TAG_MAP中定义的,这是可定制的和可训练的。如果您不对其进行自定义,它将是该语言的默认TAG_MAP。
在写这个答案的时候,spacy.io./模型列出了所有经过预先训练的模型及其标签方案。
现在,为了解释。如果你正在使用英语或德语文本,你是幸运的!您可以使用spacy.explain()或访问github上的术语表来获取完整列表。如果您正在使用其他语言,则token.pos_
值始终是通用依赖项的值,并且不管如何都会工作。
如果您正在使用其他语言,要完成对标记的完整解释,您必须在模型页面中列出的源中查找它们,以了解您感兴趣的模型。例如,对于葡萄牙语,我必须跟踪解释的标签在葡萄牙UD博斯克语料库用来训练模型。
发布于 2018-05-24 20:46:42
以下是标签的列表:
TAG_MAP = [
".",
",",
"-LRB-",
"-RRB-",
"``",
"\"\"",
"''",
",",
"$",
"#",
"AFX",
"CC",
"CD",
"DT",
"EX",
"FW",
"HYPH",
"IN",
"JJ",
"JJR",
"JJS",
"LS",
"MD",
"NIL",
"NN",
"NNP",
"NNPS",
"NNS",
"PDT",
"POS",
"PRP",
"PRP$",
"RB",
"RBR",
"RBS",
"RP",
"SP",
"SYM",
"TO",
"UH",
"VB",
"VBD",
"VBG",
"VBN",
"VBP",
"VBZ",
"WDT",
"WP",
"WP$",
"WRB",
"ADD",
"NFP",
"GW",
"XX",
"BES",
"HVS",
"_SP",
]
https://stackoverflow.com/questions/37611061
复制相似问题