我正在开发一个在python中的应用程序,该应用程序根据上传的简历提供工作推荐。在进一步处理之前,我正在尝试对简历进行标记。我想对一组单词进行标记化。例如,数据科学是一个关键字,当我标记化时,我将分别获得数据和科学。如何克服这种情况。有没有在python中做这些提取的库?
发布于 2018-07-15 09:06:42
看起来你想要生成n-grams (特别是二元语法)。如果是这种情况,以下是实现这一点的一种方法:
from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
print grams
发布于 2018-07-14 14:56:13
如果您希望使用某个分隔符(如空格)标记简历中的所有单词,则基于您的示例输入"Data Science“和输出"data","science”以下函数将字符串小写,并将其内容用空格拆分,返回一个字符串列表。
def tokenize(resume_string):
return resume_string.lower().split(" ")
https://stackoverflow.com/questions/51335911
复制相似问题