问如何在Python中对词组进行标记化
EN

Stack Overflow用户

提问于 2018-07-14 14:30:37

回答 2查看 799关注 0票数 1

我正在开发一个在python中的应用程序，该应用程序根据上传的简历提供工作推荐。在进一步处理之前，我正在尝试对简历进行标记。我想对一组单词进行标记化。例如，数据科学是一个关键字，当我标记化时，我将分别获得数据和科学。如何克服这种情况。有没有在python中做这些提取的库？

python

nlp

tokenize

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-15 09:06:42

看起来你想要生成n-grams (特别是二元语法)。如果是这种情况，以下是实现这一点的一种方法：

from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
  print grams

票数 2

Stack Overflow用户

发布于 2018-07-14 14:56:13

如果您希望使用某个分隔符(如空格)标记简历中的所有单词，则基于您的示例输入"Data Science“和输出"data"，"science”以下函数将字符串小写，并将其内容用空格拆分，返回一个字符串列表。

def tokenize(resume_string):
    return resume_string.lower().split(" ")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51335911

复制

相似问题

问如何在Python中对词组进行标记化
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Python中对词组进行标记化EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Python中对词组进行标记化
EN