首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Python NLTK:如何使用简化的词性标签集来标记句子?

Python NLTK:如何使用简化的词性标签集来标记句子?
EN

Stack Overflow用户
提问于 2011-04-26 16:19:15
回答 3查看 19K关注 0票数 27

Python NLTK book的第5章给出了在句子中标记单词的示例:

代码语言:javascript
复制
>>> text = nltk.word_tokenize("And now for something completely different")
>>> nltk.pos_tag(text)
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]

nltk.pos_tag调用默认标记器,该标记器使用完整的标记集。在本章的后面部分,将介绍simplified set of tags

如何使用这组简化的词性标记来标记句子?

另外,我是否正确理解了标记器,例如,我是否可以按照我的要求更改标记器使用的标记器集合,或者我是否应该将它返回的标签映射到简化的集合,或者我应该从新的简单标记语料库创建一个新的标记器?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-04-27 00:03:47

要简化默认标记器中的标记,可以使用nltk.tag.simplify.simplify_wsj_tag,如下所示:

代码语言:javascript
复制
>>> import nltk
>>> from nltk.tag.simplify import simplify_wsj_tag
>>> tagged_sent = nltk.pos_tag(tokens)
>>> simplified = [(word, simplify_wsj_tag(tag)) for word, tag in tagged_sent]
票数 21
EN

Stack Overflow用户

发布于 2014-11-18 03:43:17

更新,以防任何人遇到同样的问题。NLTK后来升级到了一个“通用”的标记集,源here。标记好文本后,使用map_tag来简化标记。

代码语言:javascript
复制
import nltk
from nltk.tag import pos_tag, map_tag

text = nltk.word_tokenize("And now for something completely different")
posTagged = pos_tag(text)
simplifiedTags = [(word, map_tag('en-ptb', 'universal', tag)) for word, tag in posTagged]
print(simplifiedTags)
# [('And', u'CONJ'), ('now', u'ADV'), ('for', u'ADP'), ('something', u'NOUN'), ('completely', u'ADV'), ('different', u'ADJ')]
票数 28
EN

Stack Overflow用户

发布于 2018-03-15 11:03:45

您只需在pos_tag方法中将标记集属性设置为“通用”即可。

代码语言:javascript
复制
In [39]: from nltk import word_tokenize, pos_tag
...: 
...: text = word_tokenize("Here is a simple way of doing this")
...: tags = pos_tag(text, tagset='universal')
...: print(tags)
...: 
[('Here', 'ADV'), ('is', 'VERB'), ('a', 'DET'), ('simple', 'ADJ'), ('way', 'NOUN'), ('of', 'ADP'), ('doing', 'VERB'), ('this', 'DET')]
票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5787673

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档