文本张量表示的方法:
one-hot编码
Word2vec
Word Embedding
one-hot词向量表示
one-hot又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是.../Tokenizer"
joblib.dump(t, tokenizer_path)
输出效果:
鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0]
王力宏 的one-hot编码为:...[0, 1, 0, 0, 0, 0]
李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0]
陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0]
周杰伦 的one-hot...] = 1
print(token, "的one-hot编码为:", zero_list)
输出效果:
李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0]
one-hot编码的优劣势...set等词汇都使用它们的one-hot编码.