文章/答案/技术大牛

发布

社区首页 >问答首页 >计算文档集合和关键字之间的余弦相似度(例如“innovate”"fast")

问计算文档集合和关键字之间的余弦相似度(例如“innovate”"fast")
EN

Stack Overflow用户

提问于 2020-12-17 03:26:26

回答 1查看 131关注 0票数 0

我有一套描述企业文化不同维度的文档。标记化的示例如下：

sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']

我已经将Glove和Gensim w2v应用到了上述文档中。我想识别与一组单词具有高余弦相似度分数的文档，比如Innovation =['innovate','innovative','fast']

如何使用Gensim计算每个文档(例如sent1、sent2)和Innovation之间的余弦相似度？

理想输出：

       innovation
sent1  0.98
sent2  0.45
sent3  -0.2

发布于 2020-12-17 03:37:40

当涉及到“文档集之间的余弦相似性”时，有不同的方法。您可以阅读一些解决方案here。

但是如果你只想计算两个单词之间的CS，你可以这样做(were a和b是你的向量)：

from numpy import dot
from numpy.linalg import norm

cos_sim = dot(a, b)/(norm(a)*norm(b))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65329886

复制

相似问题

问计算文档集合和关键字之间的余弦相似度(例如“innovate”"fast")EN