如何为两个文档生成相似度分数 - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

Lucene:通过添加IR信息来输出详细的数据

、

我需要处理一个数据库，以便向文档术语添加元信息，如td-idf权重。我计划使用Apache Lucene来完成这项任务。实际上，我对检索或运行查询不感兴趣，而是对数据建立索引并详细说明它们，以便生成具有上述文档对和相似度分数的输出文件。下一步是将这些结果传递给Weka分类器。我能用Lucene轻松做到这一点吗？谢谢

浏览 0提问于2011-02-23得票数 2

回答已采纳

1回答

从本体创建概念向量

、、、、

我有一组涉及域的文档。这些文档中的数据可以从概念上映射到领域本体。我需要找到那些文档之间的相似性分数。在文献中，许多人提出建立一个概念向量(类似于术语向量)，然后用余弦定律计算相似度。我知道如何为文档创建一个术语向量/tf-以色列国防军向量。假设我有两个描述两个用户配置文件的文档。在标记和词干之后，我为每个文档准备了两袋单词。在这种情况下，余

浏览 0提问于2015-03-23得票数 0

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词：AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文

浏览 2提问于2016-01-19得票数 5

7回答

在lucene中获取两个文档之间的余弦相似度

、、、

我想在不指定查询的情况下，只是得到一个分数(余弦相似度还是另一个距离？)在索引中的两个文档之间。如何获得这两个文档之间的余弦相似度？谢谢

浏览 7提问于2009-12-04得票数 15

回答已采纳

1回答

是否有方法计算两个同态加密向量之间的距离度量(欧几里德或余弦相似性或曼哈顿)？具体来说，我希望生成文档的嵌入(使用转换器)，对这些嵌入进行同态加密，并希望计算嵌入之间的距离度量，以获得文档相似度分数。我已经对库进行了评估，比如sum、TenSEAL和Pyfhel (HE库)，每个库似乎缺少一个特定的数学操作，无论是除法、累积和，还是绝对值，都无法生成上面列出的任何距离度量。(我确实找到了这个：，它计算加密向量之间的hamming距离，

浏览 65提问于2022-11-11得票数 0

回答已采纳

1回答

查找两个文档之间的相似度

、

lucene中有没有内置的算法来查找两个文档之间的相似度？当我通过默认的相似性类时，它会在比较查询和文档后给出分数作为结果。我已经为我的文档建立了索引，使用了snowball分析器，下一步将是找到两个文档之间的相似性。有人能给出一个解决方案吗？

浏览 2提问于2012-01-13得票数 1

3回答

Lucene自定义评分(Lucene 3.2)涉及以索引最快的方式迭代所有文档？

、

我正在尝试在Lucene中实现一个与tf-idf无关的自定义评分公式(因此，例如，仅更改相似度将不起作用)。为此，我需要能够使用我的自定义查询并为索引中存储的每个文档生成分数，而不仅仅是那些与查询中的术语匹配的文档(因为我的分数涉及检查本质上是同义词的内容，所以即使文档没有确切的术语，它仍然可以生成肯定的分数简单地创建一个IndexReader并为所有文档调用Document d = reader.

浏览 1提问于2011-06-27得票数 3

1回答

如何正确解释solr相似性评分？

、

我知道，Solr返回的相似性分数仅与特定查询相关，并且只有相对意义。话虽如此，是否有办法在全球范围内确定分数的“好”？如何确定这一阈值？只是通过实证测量，还是我可以说，一般情况下，大于3的相似度在内容上具有很好的相似性，而<e

浏览 0提问于2014-01-27得票数 0

回答已采纳

1回答

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

我使用elasticsearch来组合不同的东西：-基于密集向量(余弦相似度)的文本得分搜索。我的问题是，在查询阶段不计算余弦相似度，我在文本中的搜索充当预筛选器。我将始终获得结果链接到文本搜索，即使余弦相似更好。这是function_score根据的标准行为 function_score允许您修改查询检索的文档的分

浏览 1提问于2020-01-29得票数 1

回答已采纳

2回答

搜索选择

对于我正在编写的C#程序，我需要比较两个实体(可以是文档、动物或几乎任何实体)中的相似性。基于某些属性，我计算文档(或实体)之间的相似度。我把它们的相似之处放在下面的表格中。X Y Z B|0.6 |0.4 |0.2 我想根据最高的相似度分数找到最佳匹配对(例如: AX，BY，CZ)。得分越高，相似度</em

浏览 0提问于2010-12-03得票数 0

3回答

如何用已经计算出的TFIDF分数计算余弦相似度

、、、、

我需要计算已经计算出TFIDF分数的文档之间的余弦相似度。2, apples, 0.13, apples, 0.63, pears, 0.2 我需要生成通常由TFIDFVectorizer生成</

浏览 2提问于2018-05-16得票数 0

3回答

如何在python中找到具有相似分数的大字符串中的相似子字符串？

、、、、

我要找的不仅仅是两个文本之间的一个简单的相似性分数。但是字符串内部的子字符串的相似度分数。可以这样说：如果text1的一些词丢失了，分数就会少一些。我正在处理一个大的不同段落大小的数据集，因此在一个更大的段落中找到一个具有如此相似评分

浏览 2提问于2018-01-05得票数 3

回答已采纳

1回答

如何计算全名之间的相似性？

、、、

我有两个项目的清单，应该匹配的基础上，只有全名。对于确切的名称，应该没有问题，但是如果全名包含缺失的或缩写的部分，如哪种算法可以用来计算一个加权相似度，然后根据这个相似度分数从不同的列表中匹配这些名字？

浏览 3提问于2015-03-07得票数 1

1回答

两个文档之间的不同特征

、、、

我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

Solr:查询多个碎片时的结果排序

如果我在两个碎片之间查询，第一个碎片返回10行，第二个碎片返回100行，那么合并的结果集是如何排列的？我最终会得到第一个碎片(结果最少)的结果吗？

浏览 3提问于2015-10-06得票数 1

回答已采纳

1回答

当我只有域内数据时，如何在领域特定的问答机器人中评估域外问题？

、、

我了解到，一些流行的机器人，如RASA或LUIS，会有“置信度分数”来评估域外问题，但它们都没有提供如何计算这些分数的文档。此外，信息检索有一些计算相似度的方法，但我不知道它将使用哪些方法进行域外分类。谁能给我一些关于我可以写哪些论文、说明或代码的想法？

浏览 24提问于2019-06-12得票数 0

1回答

RapidMiner:计算文档相似度

我正在使用Rapidminer计算文档之间的相似性。我正在使用来自我的Java应用程序的这个过程。此过程计算每个文档与数据集中的每个其他文档的相似性。我不想计算每个文档之间的相似性。I只想计算一个选定文档与所有其他文档的相似度。数据到相似度计算这些向量之间的余弦

浏览 3提问于2016-05-18得票数 0

回答已采纳

1回答

SQL、Python或R中的相似性分析

、、、

我有120k个项目的描述，我必须与38k个项目进行比较，并确定它们之间的相似程度。最终，我想看看在基于相似性的120k内是否存在38k中的任何一个。我在excel中找到了很好的相似性脚本，我把我的数据组织成乘法表，这样我就可以比较从120k到38k的每个描述。请看下面的图片。所以函数是有效的，但是计算量是不可能在excel中运行的。

浏览 1提问于2018-03-14得票数 0

1回答

用已知项目相似度和丰度设置相似度度量

、、

我正在寻找一种相似性度量(比如Jaccard )，但是我想使用集合中的对象之间已知的相似点，并根据项目的丰度来权衡连接。这些已知的相似点是0和1之间的分数，1表示完全匹配。例如，考虑两组：我知道 {A，A'}，{B，B'}，{C，C'}每个项目的相似性为0.9。因此，我预计SET1和SET2的相似性会比较高。另一个例子是:考虑两个集合

浏览 3提问于2016-05-23得票数 0

回答已采纳

3回答

如何度量两个文本文档之间的相似性？

、、、、

假设我有100个文本文档，我想对这些文档进行集群。我的问题是：谢谢,

浏览 0提问于2019-04-14得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Lucene:通过添加IR信息来输出详细的数据

从本体创建概念向量

关于word2vec most_similar()函数

在lucene中获取两个文档之间的余弦相似度

计算同态加密向量之间的距离度量

查找两个文档之间的相似度

Lucene自定义评分(Lucene 3.2)涉及以索引最快的方式迭代所有文档？

如何正确解释solr相似性评分？

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

搜索选择

如何用已经计算出的TFIDF分数计算余弦相似度

如何在python中找到具有相似分数的大字符串中的相似子字符串？

如何计算全名之间的相似性？

两个文档之间的不同特征

Solr:查询多个碎片时的结果排序

当我只有域内数据时，如何在领域特定的问答机器人中评估域外问题？

RapidMiner:计算文档相似度

SQL、Python或R中的相似性分析

用已知项目相似度和丰度设置相似度度量

如何度量两个文本文档之间的相似性？

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐