我有一套描述企业文化不同维度的文档。标记化的示例如下:
sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']我已经将Glove和Gensim w2v应用到了上述文档中。我想识别与一组单词具有高余弦相似度分数的文档,比如Innovation =['innovate','innovative','fast']
如何使用Gensim计算每个文档(例如sent1、sent2)和Innovation之间的余弦相似度?
理想输出:
innovation
sent1 0.98
sent2 0.45
sent3 -0.2发布于 2020-12-17 03:37:40
当涉及到“文档集之间的余弦相似性”时,有不同的方法。您可以阅读一些解决方案here。
但是如果你只想计算两个单词之间的CS,你可以这样做(were a和b是你的向量):
from numpy import dot
from numpy.linalg import norm
cos_sim = dot(a, b)/(norm(a)*norm(b))https://stackoverflow.com/questions/65329886
复制相似问题