word2idx={}
#idx2word={}
for i in range(len(words)):
word2idx[words[i]]=i
#idx2word[i]=words[i]
#按字典的值排序...,我们是从单词表中进行读取判断其出现在句子中的次数。...在sklearn中的实现:
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()
结果:array([[0,...1, 1, 0, 0, 1, 2, 1, 1, 1], [1, 0, 1, 1, 1, 0, 1, 1, 1, 0]])
构建的单词的列表的单词的顺序不同,结果会稍有不同。...来获取单词的上下文信息。