等等,gensim处理语言步骤一般是先用gensim.utils工具包预处理,例如tokenize,gensim词典官网,功能是将规范化的词与其id建立对应关系
from gensim.corpora.dictionary...import Dictionary
def print_dict(dic):
for key in dic:
print key,dic[key]
a = [[u'巴西',u'...巴西',u'英格兰'],[u'巴西',u'西班牙',u'法国']]
b = [u'巴西',u'巴西',u'比利时',u'法国',u'法国']
# a用来构造词典
dic = Dictionary(a)...输出字典
print dic
print print_dict(dic)
可以发现,建立id与token一一映射
########dictionary信息##########
Dictionary(4...unique tokens: [u'\u6cd5\u56fd', u'\u5df4\u897f', u'\u897f\u73ed\u7259', u'\u82f1\u683c\u5170'])
2 法国