文档相似度运行时超过使用Spacy

、、、、

我已经用Python编写了一个函数来计算PDF页面之间的相似度，以返回最相似的页面映射。函数： import PyPDF2nlp = spacy.load('en_core_web_lg') output.append(temp_dict) return outpu

浏览 14提问于2020-10-09得票数 1

1回答

如何对字符串数组运行spaCy的句子相似度函数以获得分数数组？

、、、、

我必须将一个spacy文档与spacy文档的列表进行比较，并希望获得相似度得分列表作为输出。当然，我可以使用for循环来做到这一点，但我正在寻找一些优化的解决方案，比如numpy提供的广播等。对于一系列文档，我只有一个文档： oneDoc = 'Hello, I want to be compared with a list of documents' listDocs = ["I'm thef

浏览 17提问于2019-05-10得票数 0

回答已采纳

2回答

空间相似度方法不能正常工作

、、、、

我正在使用spacy进行简单的自然语言处理。我正在致力于通过测量单词之间的相似度来过滤单词。nlp = spacy.load('en_core_web_lg') for token1 in tokens:dog: -7.828739256

浏览 0提问于2018-09-18得票数 2

1回答

Spacy使用什么来创建向量表示？

、、、、

Spacy创建向量表示的内置方法是什么？我在我的语料库上执行了NLP，然后使用.similarity (余弦相似度)来绘制出“相似”的文档。然而，我不确定spacy使用什么方法来创建向量表示。

浏览 7提问于2017-07-07得票数 1

1回答

为什么两个文档中只有一个单词的相似度返回0.00？

为什么下面的代码给我0.00的相似度，因为这两个文档都有相同的单词astronaut？import spacyprint (nlp('astronaut').similarity(nlp('astronaut'))) # Result:

浏览 2提问于2017-08-04得票数 1

回答已采纳

2回答

没有循环的Python Spacy相似性？

、、、、

我已经成功地创建了代码来利用Spacy中的标准相似度函数，然而，当它循环遍历大量文档列表时，将相似度分数附加到pandas df中，这花费的时间太长。有没有一种方法可以返回前5个最相似的文档，而不需要附加循环和pandas？原因是，与其他文档相比，此方法返回最合理的前5个文档(嵌入单词的乐趣！)#load relevant libraries import nu

浏览 18提问于2018-08-02得票数 4

回答已采纳

1回答

在Spacy中，我如何有效地比较一个文档与所有其他文档的相似度？

、、

对于我的应用程序，我将一个文档与所有其他文档的相似度进行比较，因为我希望找到最相似的其他文档。在Gensim中，这可以使用高效地完成。在Spacy的中，他们有比较多个文档的示例，但是对于许多文档来说，循环并不是一个有效的实现：nlp = spacy.load('en_core_web_lg') labrador

浏览 0提问于2018-03-10得票数 4

3回答

我的作业文档中的NLP示例正在崩溃

、、

因此，我是NLP的新手，我正在尝试我的文档中的示例代码，但它给了我错误。"ModelsWarning: W007您正在使用的模型没有加载词向量，因此Token.的结果。相似度方法将基于标记器、解析器和NER，这可能不会给出有用的相似性判断。如果您使用的是小模型之一，例如en_core_web_sm，则可能会发生这种情况，该模型不附带词向量，仅使用上下文相关张量。您始终可以添加自己的词向量，或者使用较大的模型之一(如果可用)。“ 我在<

浏览 1提问于2019-08-11得票数 0

2回答

文档中句子间的NER相似度

、、、

我一直使用spacy来寻找sentences.My问题的NER，因为我必须计算两个不同文档的句子之间的NER相似度。在python中有没有同样的公式或包呢？提亚

浏览 1提问于2019-04-03得票数 1

3回答

如何找到两个文档之间的相似度

、

我曾尝试使用spacy的相似度函数来获取文档中的最佳匹配句子。它不知道它是指密码，所以我的相似度很低。

浏览 24提问于2019-04-12得票数 0

2回答

Spacy中的相似性

、、

我正在尝试理解Spacy中的相似性是如何工作的。我试着用梅拉尼娅·特朗普的和米歇尔·奥巴马的看看他们有多相似。nlp = spacy.load('en_core_web_lg')

浏览 2提问于2018-11-24得票数 6

1回答

基于词移动距离和Bert嵌入的文档相似度

、、、

我正在尝试使用基于的word嵌入来计算两个任意文档的文档相似度(最近邻居)。为了从Bert获得单词嵌入，我使用了。文档相似度应该基于与python 包的单词移动距离。我之前的尝试是根据wmd-relax github存储库中的这个教程进行的：import spacyfrom wmd importBertClient # Wikipedia t

浏览 6提问于2019-03-12得票数 5

回答已采纳

4回答

在spaCy中使用什么工具来从股票代码中识别公司名称？

、

spaCy非常擅长开箱即用的命名实体识别，但在比较股票代码和公司时，它做得不够好。我有一个csv格式的股票代码和公司名称(来自纳斯达克，纽约证券交易所，美国证券交易所)的列表。基于使用spaCy中的相似度()函数，到目前为止结果还不是很好。下表显示了一些公司的样本，这些公司的相似度得分很低，尽管这些公司的名称在视觉上是相似的。我希望使用公司名称/股票代码符号列表来训练模型，并且在此训练过程之后具有更高的相似

浏览 0提问于2019-06-07得票数 3

1回答

计算SpaCy上文本的平均向量

、、

我使用SpaCy计算几个文档之间的距离，我的方法如下：nlp_latin = spacy.load("/tmp/la_vectors_wiki_lg

浏览 3提问于2019-06-10得票数 1

2回答

如何在Spacy中找到标记相似度？

、、

我正在尝试计算spacy中的标记相似度。即单词标记彼此有多近。我使用的是spacy版本2.0.5。这是我的一个简单的例子。import spacyfrom spacy.tokenizer import Tokenizer nlp = spacy.load我应该如何做这种令牌相似性，才能使其正常工作？我真的试图留在spacy中(而

浏览 2提问于2017-12-12得票数 0

1回答

Spacy 1 vs spacy 2 (spacy-nightly)他们改变了数据模型吗？为什么相似度计算不起作用？

、、、

我知道spacy 2 alpha (或称为spacy -夜间)是根据单词的上下文构建单词向量的，因此我理解nlp(‘苹果橘子’)和分隔的nlp('apples')和nlp(‘橙子’)中单词的相似度值之间的差异(当然，我对spacy 1和spacy 2使用不同的模型)。但是，我不明白我应该如何调用/输入字符串，让我们把它说成相似方法。他们改变了数据模型吗？我没有在文档中找到任何东西.我是不是做错了什么--

浏览 3提问于2017-10-06得票数 2

1回答

利用spacy的点态互信息

我使用的是Spacy，所以为前面的部分获取信息并不困难。如有任何解释或帮助，将不胜感激。

浏览 2提问于2019-04-20得票数 0

1回答

如何选择句子和段落之间的相似度度量

、、、

2.基于如果可以同时获得一个句子和一个包含句子的段落，那么哪个句子或段落之间的相似性更准确呢？1.我尝试使用其中一个库来度量相似性.然而，我很难找到更精确的方法来测量相似之处。import spacy for doc2 in test: print(doc1.si

浏览 0提问于2022-02-07得票数 2

回答已采纳

1回答

文档相似度的不同方法(LDA、LSA、余弦)

、、、、

我有一组简短的文档(每段1到2段)。我使用了三种不同的文档相似度方法：- tfidf矩阵上的简单余弦相似度-在整个语料库上应用LDA，然后使用LDA模型为每个文档创建向量，然后应用余弦相似度。对整个语料库进行-applying LSA，然后使用LSA模型为每个文档创建向量，然后应用余弦相似度。基于实验，我在没有任何LDA或LSA

浏览 20提问于2017-01-06得票数 0

1回答

为什么spacy不能在下面的代码中区分两个同形符号？

、、、、

我试图通过对每个文档的每个单词向量进行求和来比较文档之间的差异，最后找出余弦相似度。例如，如果spacy向量对上面列出的两个‘铅’具有相同的向量，那么结果可能会很糟糕。在下面的代码中，为什么两个'bank'令牌之间的相似性是1.00？import spacy str1 = 'The guy went inside the bank to take out

浏览 0提问于2018-11-09得票数 0

点击加载更多