首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何在Python中对词组进行标记化

如何在Python中对词组进行标记化
EN

Stack Overflow用户
提问于 2018-07-14 14:30:37
回答 2查看 799关注 0票数 1

我正在开发一个在python中的应用程序,该应用程序根据上传的简历提供工作推荐。在进一步处理之前,我正在尝试对简历进行标记。我想对一组单词进行标记化。例如,数据科学是一个关键字,当我标记化时,我将分别获得数据科学。如何克服这种情况。有没有在python中做这些提取的库?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-15 09:06:42

看起来你想要生成n-grams (特别是二元语法)。如果是这种情况,以下是实现这一点的一种方法:

from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
  print grams
票数 2
EN

Stack Overflow用户

发布于 2018-07-14 14:56:13

如果您希望使用某个分隔符(如空格)标记简历中的所有单词,则基于您的示例输入"Data Science“和输出"data","science”以下函数将字符串小写,并将其内容用空格拆分,返回一个字符串列表。

def tokenize(resume_string):
    return resume_string.lower().split(" ")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51335911

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档