问基于WordNet的语义相似度矩阵
EN

Stack Overflow用户

提问于 2021-06-30 17:49:30

回答 1查看 40关注 0票数 0

我有一个用于整个文档集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中，我发现对于查询中的每个单词，它的前k个同义词(通常是k=3)都会增加到查询中。但是，我使用的是基于TFIDF文档表示的向量空间模型，因此向查询中添加不在词汇表中的单词最终会被删除。而且，由于不会使用词义消除歧义技术，因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义，从而导致查询漂移。因此，我正在考虑创建一个词义相似度矩阵，它将包括查询和所有可能的词义之间的相似度得分，其中词汇表中的单词已在整个语料库中使用。相似度得分将基于信息论或基于路径的方法来计算。

然而，我无法理解如何找到词汇表中单词使用过的所有意义。另外，我的方法正确吗？有没有人可以通过指向一些相关资源来指导我呢？

python

nlp

information-retrieval

wordnet

word-sense-disambiguation

回答 1

Stack Overflow用户

发布于 2021-06-30 19:10:11

如果你在寻找语义相似的单词，我认为你应该看看word2vec及其改进的变体，如Glove (https://nlp.stanford.edu/projects/glove/)和fasttext (https://fasttext.cc/)。它们基本上是单词的向量表示，您可以计算单词之间的相似度，以构建完整的相似度矩阵。您还可以在模型中查询前N个相似的单词。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68192433

复制

相似问题

问基于WordNet的语义相似度矩阵
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于WordNet的语义相似度矩阵EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于WordNet的语义相似度矩阵
EN