在python中计算单词相似度得分

文章/答案/技术大牛

发布

1回答

余弦相似度影响

python、statistics、cosine-similarity

我正在计算余弦相似度，以了解一些年度趋势，我很好奇是否有一种方法可以看到哪些值对相似度贡献最大？是否有一种影响力计算或方法用于单词列表(我认为这将是最相似的应用程序)，可以说列表中的哪些单词对相似度得分贡献最大？

浏览 21提问于2021-07-20得票数 0

回答已采纳

3回答

python、nlp、wordnet、cosine-similarity、sentence-similarity

我试图通过比较主题列表来计算书籍的相似度。需要从0-1之间的2个列表中获得相似度分数。holy", "religion", "Christian"] book2_topics = ["god", "Christ", "idol", "Jesus"] 尝试使用wordnet，但不确定如何计算分数

浏览 59提问于2021-04-02得票数 1

3回答

python中的单词聚类列表

python、nlp、cluster-analysis、text-mining

假设我有一个单词列表'car'，'dog'，'puppy'，'vehicle'，我想把单词聚成k组，我希望输出是['car'，'vehicle'，'dog'，'puppy']。我首先计算每个成对单词的相似度得分，得到一个4x4矩阵(在本例中) M，其中Mij是单词</e

浏览 19提问于2017-01-31得票数 5

1回答

对问答系统NLP的几点建议

nlp、artificial-intelligence、chatbot、question-answering

我正在尝试建立一个问题回答系统，其中我有一组预定义的问题和他们的答案。对于来自用户的任何给定问题，我必须查找类似的问题是否已经存在于预定义的问题中，并发送答案。如果它不存在，它必须回复一个通用响应。任何关于如何使用NLP实现这一点的想法都会非常有帮助。

浏览 2提问于2020-03-15得票数 0

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

python、gensim、word2vec、doc2vec

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词我不清楚我是否有像TF和TF-IDF中那样的词嵌入。我希望使用Word2Vec/Doc2Vec，

浏览 3提问于2019-07-11得票数 0

1回答

基于WordNet的语义相似度矩阵

python、nlp、information-retrieval、wordnet、word-sense-disambiguation

我有一个用于整个文档集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中，我发现对于查询中的每个单词，它的前k个同义词(通常是k=3)都会增加到查询中。但是，我使用的是基于TFIDF文档表示的向量空间模型，因此向查询中添加不在词汇表中的单词最终会被删除。而且，由于不会使用词义消除歧义技术，因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义，从而导致查询漂移。因此，我正在考

浏览 43提问于2021-06-30得票数 0

2回答

如何用word2vec找出两个单词短语的相似度得分？

text-mining、gensim、word2vec

使用word2vec，可以通过以下方式查找单个单词的相似度得分/最相似的单词model.similarity('man', 'woman')model.most_similar('battery life') model.

浏览 1提问于2017-02-13得票数 0

1回答

使用序列匹配器比较文本相似性:为什么小写和大写字符串的结果不同？

python、text、nlp、similarity

我在pandas数据框中有一组文本(字母数字)，我想计算成对文本(例如文本1和2、2和3、3和4...)的相似度分数。我正在使用序列匹配器进行计算，并能够获得分数。我认为在将文本转换为小写后，也值得比较它们。我创建了2个分数列来比较结果:分数1=非小写文本对的相似性分数(保留文本的原始大小写)分数2=小写文本对的相似性分数。我预计小写文本对的相似度得分(得分2)

浏览 0提问于2021-04-05得票数 0

1回答

使用Runtime.exec向Python进程发送参数的解决方案

java、python、exec

我的示例代码是计算两个单词之间的相似度分数。在Java中，它向Python发送两个单词，其中查找得分。然后，Python获得两个参数并打印它们的相似度分数。最后，在Java中读取Python代码的结果。"cat", Process p =

浏览 2提问于2014-03-03得票数 1

回答已采纳

2回答

Word2Vec词汇相似性

python、machine-learning、neural-network、nlp、word2vec

我在大约750k单词的文本上运行了一个word2vec算法(在删除一些停用的单词之前)。使用我的模型，我开始寻找与我选择的特定单词最相似的单词，相似度得分(对于model.wv.most_similar方法)都超级接近1。最接近的第十个得分仍然像.998，所以我觉得我没有得到导致无意义相似单词的单词相似度之间的

浏览 1提问于2019-11-27得票数 0

5回答

可视化数据和集群

python、cluster-analysis、visualization

我目前正在编写一个python脚本来查找文档之间的相似度。我已经计算了每个文档对的相似度得分，并将它们存储在字典中。0.67999999999999989，(8313,8316)：0.99999999999999989，(8321,8322)：0.99999999999999989，(8330,8328)：1.0} 我的最终目标是将相似的文档聚在一起相似度得分为0

浏览 2提问于2010-07-14得票数 2

1回答

模糊匹配、置信度评分、C#

c#、similarity、fuzzy

我试图计算一个字符串出现在一个大得多的集合的子集中的信心分数。对我来说，这给了我33.333%的机会，我的输入词是一个匹配的3个词，具有较高的相似性得分。我想计算一下，我有

浏览 2提问于2012-05-15得票数 1

回答已采纳

1回答

如何在python中由图节点的边缘列表生成的向量之间找到余弦相似性？

python-3.x、vector、data-mining、cosine-similarity

我想从一个给定的向量嵌入文件中计算出一些图节点的余弦相似度分数。现在如何计算python中每个节点的得分？我相信用科学工具-学习，我们能解决这个问题。 1 -> 0.2 3 -> 0.5 . 我很抱歉，如果我不能正确地解释我的问题，因为我是新的数据科学。我可以在评论<

浏览 1提问于2019-07-22得票数 0

1回答

哪种类型的自动编码器可以实现文本相似性？

neural-network、nlp、autoencoder

我正在解决以下任务:我想找出句子对之间的相似度得分。我的想法是为句子中的每个单词生成嵌入，并将向量提供给编码器，编码器将学习将这些多个输入聚合为一个较低的表示序列向量。并使用该序列向量之间的余弦相似度来找出相似度得分。我的问题是，对于哪种类型的自动编码器或神经网络架构更适合我的情况，您有什么建议吗？

浏览 3提问于2019-11-25得票数 0

1回答

文字袋与word2vec澄清

nlp、word2vec

我有文档，我用word2vec为我的语料库中的所有术语计算单词向量。现在我如何计算向量序列之间的相似性？计算平均向量之间的余弦相似度？还是有更好的方法来计算两个袋子之间的相似性？

浏览 0提问于2018-03-04得票数 0

1回答

基于关键字数量的文档与其他文档相关的概率

statistics、probability

如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。

浏览 8提问于2016-01-09得票数 0

3回答

从字符串列表中，如何获得python中最奇怪的单词/字符串？

python

wabe', 'all', 'mimsy', 'were', 'the', 'borogoves', 'and', 'the', 'mome', 'raths', 'outgrabe'] 如何返回与字符串中其他单词最不同的单词列表-基于与列表中所有其他单词的最小相似度和平均

浏览 0提问于2012-04-12得票数 1

1回答

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

elasticsearch

我使用elasticsearch来组合不同的东西：-基于密集向量(余弦相似度)的文本得分搜索。我的问题是，在查询阶段不计算余弦相似度，我在文本中的搜索充当预筛选器。我将始终获得结果链接到文本搜索，即使余弦相似更好。例如，如果一个score

浏览 1提问于2020-01-29得票数 1

回答已采纳

1回答

用相似算法python识别两个句子之间的缺失词

nlp、similarity、cosine-similarity、sentence-similarity

总的来说，我想做的是:给定两个句子A和B，我想知道B中的哪些词在语义上与A中的词完全不同。本质上，我需要计算两个句子之间的相似度，找出哪个单词(来自B)的相似度很低，然后打印出来。我计算了余弦相似度，但没有给出多少关于矩阵相似性的信息。让我们说A=“肺癌是一种恶性肿瘤”而B=“肺癌是一种肺部疾病”，由于疾病和肿瘤在语义上是相似

浏览 3提问于2022-02-20得票数 1

1回答

STS基准数据集中的语义相似度得分是如何计算的？

python、nlp、cosine-similarity、bert-language-model

这是GitHub存储库：我正在尝试完成的任务:我有另一个自定义数据集，其中也有成对的相似和不相似句子。(Bert语句转换器：)它的计算方式必须与STS基准数据集中句子对的计算方式相同。这个帖子非常

浏览 31提问于2020-02-23得票数 0

点击加载更多

余弦相似度影响