我必须将一个spacy文档与spacy文档的列表进行比较,并希望获得相似度得分列表作为输出。当然,我可以使用for循环来做到这一点,但我正在寻找一些优化的解决方案,比如numpy提供的广播等。对于一系列文档,我只有一个文档: oneDoc = 'Hello, I want to be compared with a list of documents'
listDocs = ["I'm thef
我正在尝试使用基于的word嵌入来计算两个任意文档的文档相似度(最近邻居)。为了从Bert获得单词嵌入,我使用了。文档相似度应该基于与python 包的单词移动距离。我之前的尝试是根据wmd-relax github存储库中的这个教程进行的:import spacyfrom wmd importBertClient
# Wikipedia t
我试图通过对每个文档的每个单词向量进行求和来比较文档之间的差异,最后找出余弦相似度。例如,如果spacy向量对上面列出的两个‘铅’具有相同的向量,那么结果可能会很糟糕。在下面的代码中,为什么两个'bank'令牌之间的相似性是1.00?import spacy
str1 = 'The guy went inside the bank to take out