使用spring-data-elasticsearch和搜索相似的文档，如何获得相似度得分？

elasticsearch、spring-data-elasticsearch

我正在使用最新版本的elasticsearch (在docker中)和一个spring boot (最新版本)应用程序，我试图在其中搜索类似的文档。我的文档类有一个字符串字段： @Field( type = FieldType.Text, similarity = Simil

浏览 821提问于2021-11-07得票数 0

1回答

弹性搜索是否使用以前的搜索频率？

elasticsearch、search

弹性搜索是否利用先前搜索的文档的频率。例如，文档A和文档B在编辑距离和其他度量方面都有相似的分数，但是文档A非常频繁地被搜索，而文档B则不是。弹性搜索得分A会比B好吗?如果不是，如何获得？

浏览 0提问于2020-03-26得票数 0

1回答

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

elasticsearch

我使用elasticsearch来组合不同的东西：-基于密集向量(余弦相似度)的文本得分搜索。我的问题是，在查询阶段不计算余弦相似度，我在文本中的搜索充当预筛选器。我将始终获得结果链接到文本搜索，即使余弦相似更好。这是f

浏览 1提问于2020-01-29得票数 1

回答已采纳

1回答

使用序列匹配器比较文本相似性:为什么小写和大写字符串的结果不同？

python、text、nlp、similarity

我在pandas数据框中有一组文本(字母数字)，我想计算成对文本(例如文本1和2、2和3、3和4...)的相似度分数。我正在使用序列匹配器进行计算，并能够获得分数。我创建了2个分数列来比较结果:分数1=非小写文本对的相似性分数(保留文本的原始大小写)分数2=小写文本对的相似性分数。我预计小写文本对的相似度得分(得分2)会更高，因为会有更多的字符匹配(例如&quo

浏览 0提问于2021-04-05得票数 0

1回答

检查TF-国防军的结果

tfidf、cosine-distance、similar-documents

我正在与TF-以色列国防军和余弦相似做文档比较，并给出一个文档，哪个文档在数据中是最相似的。但是，有时它会返回两个文档之间的高度相似性，而在读取文档对时，这两个文档似乎不太相似。是否有传统的方法来评估哪些词有助于两个文档之间的高相似度得分使用TF-以色列国防军和余弦相似性？

浏览 0提问于2019-06-16得票数 1

2回答

我有一个包含大约1000个文档的小索引，其中只有两个字段：- id (string) - content (text_general) 我注意到，当我按id对相似内容进行MLT搜索时，原始文档( id是搜索到的id)的得分为5.241327。存在1:1重复的文档，对于重复的内容，它将返回score = 1.5258181。为什么？为什么它不是5.241327，当它是100%复制。另一个问题是，我能否以任何方式通过在查询中传递一些文本来获得按内容计算的<

浏览 1提问于2012-12-03得票数 1

2回答

使用eDisMax计算多个字段加权分数之和的最终分数

solr、lucene

我希望通过将多个字段得分的加权得分相加来计算每个文档的最终得分，而不是像edisMAx查询解析器那样获得最大值。因此，如果我有三个字段:title和description，我希望我的最终分数是这样的：最终得分= w1 * title_field_score + (1-w1) * description_field_score没有任何相似度的默认相似度给出了这个。这将使用以下<em

浏览 0提问于2013-01-27得票数 1

回答已采纳

1回答

如何抓取语义相似的句子

python、nlp、data-science、sentence-similarity、semantic-analysis

我有一个小的文本数据集，并想从网络上抓取相似的句子。使用Bert相关模型、doc2vec和空间相似度的sentence_transformers软件包进行相似性度量。我将阈值设置为85%，但相似度得分高于阈值的句子并不真正相关。如何用python从web上抓取相似的句子？

浏览 33提问于2020-06-06得票数 1

1回答

搜索与现有文档相似的文档的Elasticsearch分数从0到1

elasticsearch、elasticsearch-dsl

在搜索与现有文档相似的文档时，需要计算0到1之间的相对分数？因此，现有文档的得分为1分，所有其他匹配文档的得分都应据此计算，得分将为<= 1，但现有文档应排除在搜索范围之外。": "peter@gmail.com", "country_of_birth"

浏览 4提问于2020-09-17得票数 1

1回答

STS基准数据集中的语义相似度得分是如何计算的？

python、nlp、cosine-similarity、bert-language-model

这是GitHub存储库：我正在尝试完成的任务:我有另一个自定义数据集，其中也有成对的相似和不相似句子。(只有200对)但是，该模型需要所有句子对的语义相似度得分。<em

浏览 31提问于2020-02-23得票数 0

1回答

可视化文档相似点

java、algorithm、document、similarity

我们目前正在做一个关于两个文本文档的抄袭检测的项目。我们必须比较两个提交的文件，并展示比较结果。为此，我想并排显示这两个文档，并在GUI中突出显示两个文档之间的相似点。我使用了各种算法来获得两个文档之间的相似度得分，如向量空间和瓦片云算法。但它们不提供具有相似性的部分，我必须在图形界面中出现相似性的地方将它们呈现给用户。 Thanx

浏览 1提问于2011-04-26得票数 0

回答已采纳

1回答

elasticsearch中精确、拼音和模糊匹配的自定义分数

elasticsearch

为了简单起见，假设我根据索引中的姓名搜索'Smith‘，逻辑应该是：else score = <depending upon fuzziness match of input with name>% end if; 我可以搜索模糊度为1的文档，但我不知道如何根据模糊度给它打分

浏览 0提问于2018-03-25得票数 1

2回答

在ElasticSearch中有没有一种算法可以给出向量之间的相似度？

mongodb、elasticsearch、machine-learning、deep-learning、elastic-stack

在我开始之前，我真的不知道Elastic是什么以及它是如何工作的。我是ML工程师，最近被分配了Image - Image similarity的任务。所以我想知道，有没有向量搜索的算法，像Okapi BM25这样的文本搜索算法。我的向量看起来像：[0.2,0.1,0.04,......]等。它们可以是任何维度，这取决于用例。但是有没有什么算法可以让我得到top-k搜索结果呢？如果需要信息，我们的团队正在使用MongoDB。

浏览 27提问于2020-12-30得票数 0

1回答

RecordLinkage -R一个向量。与自身不匹配

r、levenshtein-distance、fuzzy-logic、stringdist、record-linkage

如果我有一个名字的向量，比如：我想使用levenshteinSim或类似的方法来获得这个向量中的相似度分数。然而，我不想让它自己得分。例如，在对&q

浏览 8提问于2017-08-16得票数 1

回答已采纳

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

python、gensim、word2vec、doc2vec

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词我不清楚我是否有像TF和TF-IDF中那样的词嵌入。我希望使用Word2Vec/Doc2Vec，

浏览 3提问于2019-07-11得票数 0

1回答

在Apache中，位置在语义上是否与顺序相同？

solr

在Apache中，如果我有来自两个不同文档的两个字段：字段2：“huckleberry finn中的一个角色是tom sawyer” *请注意，我搜索“huckleberry finn中的一个字符”(也是标记化的)，字段2的分数会更高，因为不仅在字段中标记与查询中的顺序相同，而且文本中短语的位置在字段和查询中都位于开头？

浏览 3提问于2016-08-07得票数 0

回答已采纳

4回答

基于elasticsearch的Word2vec文本相似性搜索

elasticsearch、word2vec

我需要实现一个相似性搜索。其思想是将每个单词作为word2vec嵌入，并通过向量添加每个单词的嵌入将每个文本表示为一个标准化向量。对文本的后续添加只会通过向其添加新的单词向量来改进结果文本的向量。是否可以使用elasticsearch来获取余弦相似度，方法是只存储文档中每个文本的标准化向量的坐标？如果是这样的话，这种搜索的正确索引结构是什么？

浏览 93提问于2017-02-23得票数 20

1回答

用权重规范排名分数

python、nlp、nltk、normalize、cosine-similarity

我正在处理一个文档搜索问题，在这个问题中，给定一组文档和一个搜索查询，我希望找到最接近查询的文档。我所使用的模型是基于TfidfVectorizer的scikit。接下来，对于给定的搜索查询，我使用这4个模型计算搜索项与所有其他文档之间的余弦相似度。例如，搜索查询:量子物理学中的奇点。将搜索查询分解为n-g，并从相应的n-g模

浏览 2提问于2015-08-11得票数 1

回答已采纳

2回答

Lucene:跨查询比较结果

java、search、lucene、indexing

我需要比较不同Lucene查询的搜索结果的相关性。从我在互联网上发现的情况来看，这不是一项简单的任务。有人能给我一个关于如何处理这个问题的提示吗？非常感谢!

浏览 0提问于2011-07-24得票数 6

1回答

基于WordNet的语义相似度矩阵

python、nlp、information-retrieval、wordnet、word-sense-disambiguation

我有一个用于整个文档集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中，我发现对于查询中的每个单词，它的前k个同义词(通常是k=3)都会增加到查询中。但是，我使用的是基于TFIDF文档表示的向量空间模型，因此向查询中添加不在词汇表中的单词最终会被删除。而且，由于不会使用词义消除歧义技术，因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义，从而导致查询漂移。因此，我正在考虑创建一个词义相似度矩阵，它将包括查询和所有可能的词义之间的相似

浏览 43提问于2021-06-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

弹性搜索是否使用以前的搜索频率？

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

使用序列匹配器比较文本相似性:为什么小写和大写字符串的结果不同？

检查TF-国防军的结果

Apache solr -更像这个分数

使用eDisMax计算多个字段加权分数之和的最终分数

如何抓取语义相似的句子

搜索与现有文档相似的文档的Elasticsearch分数从0到1

STS基准数据集中的语义相似度得分是如何计算的？

可视化文档相似点

elasticsearch中精确、拼音和模糊匹配的自定义分数

在ElasticSearch中有没有一种算法可以给出向量之间的相似度？

RecordLinkage -R一个向量。与自身不匹配

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

在Apache中，位置在语义上是否与顺序相同？

基于elasticsearch的Word2vec文本相似性搜索

用权重规范排名分数

Lucene:跨查询比较结果

基于WordNet的语义相似度矩阵

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐