首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >计算文档集合和关键字之间的余弦相似度(例如“innovate”"fast")

计算文档集合和关键字之间的余弦相似度(例如“innovate”"fast")
EN

Stack Overflow用户
提问于 2020-12-17 03:26:26
回答 1查看 131关注 0票数 0

我有一套描述企业文化不同维度的文档。标记化的示例如下:

代码语言:javascript
运行
复制
sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']

我已经将Glove和Gensim w2v应用到了上述文档中。我想识别与一组单词具有高余弦相似度分数的文档,比如Innovation =['innovate','innovative','fast']

如何使用Gensim计算每个文档(例如sent1、sent2)和Innovation之间的余弦相似度?

理想输出:

代码语言:javascript
运行
复制
       innovation
sent1  0.98
sent2  0.45
sent3  -0.2
EN

回答 1

Stack Overflow用户

发布于 2020-12-17 03:37:40

当涉及到“文档集之间的余弦相似性”时,有不同的方法。您可以阅读一些解决方案here

但是如果你只想计算两个单词之间的CS,你可以这样做(were ab是你的向量):

代码语言:javascript
运行
复制
from numpy import dot
from numpy.linalg import norm

cos_sim = dot(a, b)/(norm(a)*norm(b))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65329886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档