腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3607)
视频
沙龙
1
回答
使用
spring-data-elasticsearch
和
搜索
相似的
文档
,
如何
获得
相似
度
得分
?
elasticsearch
、
spring-data-elasticsearch
我正在
使用
最新版本的elasticsearch (在docker中)
和
一个spring boot (最新版本)应用程序,我试图在其中
搜索
类
似的
文档
。我的
文档
类有一个字符串字段: @Field( type = FieldType.Text, similarity = Simil
浏览 821
提问于2021-11-07
得票数 0
1
回答
弹性
搜索
是否
使用
以前的
搜索
频率?
elasticsearch
、
search
弹性
搜索
是否利用先前
搜索
的
文档
的频率。例如,
文档
A和
文档
B在编辑距离
和
其他度量方面都有
相似的
分数,但是
文档
A非常频繁地被
搜索
,而
文档
B则不是。弹性
搜索
得分
A会比B好吗?如果不是,
如何
获得
?
浏览 0
提问于2020-03-26
得票数 0
1
回答
Elasticsearch:在相关评分中
使用
密集向量上的距离(在查询时)
elasticsearch
我
使用
elasticsearch来组合不同的东西:-基于密集向量(余弦
相似
度
)的文本
得分
搜索
。我的问题是,在查询阶段不计算余弦
相似
度
,我在文本中的
搜索
充当预筛选器。我将始终
获得
结果链接到文本
搜索
,即使余弦
相似
更好。这是f
浏览 1
提问于2020-01-29
得票数 1
回答已采纳
1
回答
使用
序列匹配器比较文本
相似
性:为什么小写
和
大写字符串的结果不同?
python
、
text
、
nlp
、
similarity
我在pandas数据框中有一组文本(字母数字),我想计算成对文本(例如文本1
和
2、2
和
3、3
和
4...)的
相似
度
分数。 我正在
使用
序列匹配器进行计算,并能够
获得分
数。我创建了2个分数列来比较结果:分数1=非小写文本对的
相似
性分数(保留文本的原始大小写)分数2=小写文本对的
相似
性分数。我预计小写文本对的
相似
度
得分
(
得分
2)会更高,因为会有更多的字符匹配(例如&quo
浏览 0
提问于2021-04-05
得票数 0
1
回答
检查TF-国防军的结果
tfidf
、
cosine-distance
、
similar-documents
我正在与TF-以色列国防军
和
余弦
相似
做
文档
比较,并给出一个
文档
,哪个
文档
在数据中是最
相似的
。但是,有时它会返回两个
文档
之间的高度
相似
性,而在读取
文档
对时,这两个
文档
似乎不太
相似
。是否有传统的方法来评估哪些词有助于两个
文档
之间的高
相似
度
得分
使用
TF-以色列国防军
和
余弦
相似
性?
浏览 0
提问于2019-06-16
得票数 1
2
回答
Apache solr -更像这个分数
apache
、
solr
我有一个包含大约1000个
文档
的小索引,其中只有两个字段:- id (string) - content (text_general) 我注意到,当我按id对
相似
内容进行MLT
搜索
时,原始
文档
( id是
搜索
到的id)的
得分
为5.241327。存在1:1重复的
文档
,对于重复的内容,它将返回score = 1.5258181。为什么?为什么它不是5.241327,当它是100%复制。另一个问题是,我能否以任何方式通过在查询中传递一些文本来
获得
按内容计算的<
浏览 1
提问于2012-12-03
得票数 1
2
回答
使用
eDisMax计算多个字段加权分数之和的最终分数
solr
、
lucene
我希望通过将多个字段
得分
的加权
得分
相加来计算每个
文档
的最终
得分
,而不是像edisMAx查询解析器那样
获得
最大值。因此,如果我有三个字段:title
和
description,我希望我的最终分数是这样的: 最终
得分
= w1 * title_field_score + (1-w1) * description_field_score没有任何
相似
度
的默认
相似
度
给出了这个。这将
使用
以下<em
浏览 0
提问于2013-01-27
得票数 1
回答已采纳
1
回答
如何
抓取语义
相似的
句子
python
、
nlp
、
data-science
、
sentence-similarity
、
semantic-analysis
我有一个小的文本数据集,并想从网络上抓取
相似的
句子。
使用
Bert相关模型、doc2vec
和
空间
相似
度
的sentence_transformers软件包进行
相似
性度量。我将阈值设置为85%,但
相似
度
得分
高于阈值的句子并不真正相关。
如何
用python从web上抓取
相似的
句子?
浏览 33
提问于2020-06-06
得票数 1
1
回答
搜索
与现有
文档
相似的
文档
的Elasticsearch分数从0到1
elasticsearch
、
elasticsearch-dsl
在
搜索
与现有
文档
相似的
文档
时,需要计算0到1之间的相对分数?因此,现有
文档
的
得分
为1分,所有其他匹配
文档
的
得分
都应据此计算,
得分
将为<= 1,但现有
文档
应排除在
搜索
范围之外。": "peter@gmail.com", "country_of_birth"
浏览 4
提问于2020-09-17
得票数 1
1
回答
STS基准数据集中的语义
相似
度
得分
是
如何
计算的?
python
、
nlp
、
cosine-similarity
、
bert-language-model
这是GitHub存储库:我正在尝试完成的任务:我有另一个自定义数据集,其中也有成对的
相似
和
不
相似
句子。(只有200对)但是,该模型需要所有句子对的语义
相似
度
得分
。<em
浏览 31
提问于2020-02-23
得票数 0
1
回答
可视化
文档
相似
点
java
、
algorithm
、
document
、
similarity
我们目前正在做一个关于两个文本
文档
的抄袭检测的项目。我们必须比较两个提交的文件,并展示比较结果。为此,我想并排显示这两个
文档
,并在GUI中突出显示两个
文档
之间的
相似
点。我
使用
了各种算法来
获得
两个
文档
之间的
相似
度
得分
,如向量空间
和
瓦片云算法。但它们不提供具有
相似
性的部分,我必须在图形界面中出现
相似
性的地方将它们呈现给用户。 Thanx
浏览 1
提问于2011-04-26
得票数 0
回答已采纳
1
回答
elasticsearch中精确、拼音
和
模糊匹配的自定义分数
elasticsearch
为了简单起见,假设我根据索引中的姓名
搜索
'Smith‘,逻辑应该是:else score = <depending upon fuzziness match of input with name>% end if; 我可以
搜索
模糊
度
为1的
文档
,但我不知道
如何
根据模糊
度
给它打分
浏览 0
提问于2018-03-25
得票数 1
2
回答
在ElasticSearch中有没有一种算法可以给出向量之间的
相似
度
?
mongodb
、
elasticsearch
、
machine-learning
、
deep-learning
、
elastic-stack
在我开始之前,我真的不知道Elastic是什么以及它是
如何
工作的。我是ML工程师,最近被分配了Image - Image similarity的任务。所以我想知道,有没有向量
搜索
的算法,像Okapi BM25这样的文本
搜索
算法。 我的向量看起来像:[0.2,0.1,0.04,......]等。它们可以是任何维度,这取决于用例。但是有没有什么算法可以让我得到top-k
搜索
结果呢? 如果需要信息,我们的团队正在
使用
MongoDB。
浏览 27
提问于2020-12-30
得票数 0
1
回答
RecordLinkage -R一个向量。与自身不匹配
r
、
levenshtein-distance
、
fuzzy-logic
、
stringdist
、
record-linkage
如果我有一个名字的向量,比如:我想
使用
levenshteinSim或类
似的
方法来
获得
这个向量中的
相似
度
分数。然而,我不想让它自己
得分
。例如,在对&q
浏览 8
提问于2017-08-16
得票数 1
回答已采纳
2
回答
我可以
获得
Word2Vec
和
Doc2Vec矩阵来计算余弦
相似
度
吗?
python
、
gensim
、
word2vec
、
doc2vec
我正在处理文本数据,目前我已经将我的数据放入术语
文档
矩阵中,并计算出TF,术语频率
和
TF-IDF,术语频率与
文档
频率相反。从这里看,我的矩阵如下所示:行名=单词我不清楚我是否有像TF
和
TF-IDF中那样的词嵌入。我希望
使用
Word2Vec/Doc2Vec,
浏览 3
提问于2019-07-11
得票数 0
1
回答
在Apache中,位置在语义上是否与顺序相同?
solr
在Apache中,如果我有来自两个不同
文档
的两个字段:字段2:“huckleberry finn中的一个角色是tom sawyer” *请注意,我
搜索
“huckleberry finn中的一个字符”(也是标记化的),字段2的分数会更高,因为不仅在字段中标记与查询中的顺序相同,而且文本中短语的位置在字段
和
查询中都位于开头?
浏览 3
提问于2016-08-07
得票数 0
回答已采纳
4
回答
基于elasticsearch的Word2vec文本
相似
性
搜索
elasticsearch
、
word2vec
我需要实现一个
相似
性
搜索
。 其思想是将每个单词作为word2vec嵌入,并通过向量添加每个单词的嵌入将每个文本表示为一个标准化向量。对文本的后续添加只会通过向其添加新的单词向量来改进结果文本的向量。是否可以
使用
elasticsearch来获取余弦
相似
度
,方法是只存储
文档
中每个文本的标准化向量的坐标?如果是这样的话,这种
搜索
的正确索引结构是什么?
浏览 93
提问于2017-02-23
得票数 20
1
回答
用权重规范排名分数
python
、
nlp
、
nltk
、
normalize
、
cosine-similarity
我正在处理一个
文档
搜索
问题,在这个问题中,给定一组
文档
和
一个
搜索
查询,我希望找到最接近查询的
文档
。我所
使用
的模型是基于TfidfVectorizer的scikit。接下来,对于给定的
搜索
查询,我
使用
这4个模型计算
搜索
项与所有其他
文档
之间的余弦
相似
度
。 例如,
搜索
查询:量子物理学中的奇点。将
搜索
查询分解为n-g,并从相应的n-g模
浏览 2
提问于2015-08-11
得票数 1
回答已采纳
2
回答
Lucene:跨查询比较结果
java
、
search
、
lucene
、
indexing
我需要比较不同Lucene查询的
搜索
结果的相关性。从我在互联网上发现的情况来看,这不是一项简单的任务。有人能给我一个关于
如何
处理这个问题的提示吗? 非常感谢!
浏览 0
提问于2011-07-24
得票数 6
1
回答
基于WordNet的语义
相似
度
矩阵
python
、
nlp
、
information-retrieval
、
wordnet
、
word-sense-disambiguation
我有一个用于整个
文档
集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中,我发现对于查询中的每个单词,它的前k个同义词(通常是k=3)都会增加到查询中。但是,我
使用
的是基于TFIDF
文档
表示的向量空间模型,因此向查询中添加不在词汇表中的单词最终会被删除。而且,由于不会
使用
词义消除歧义技术,因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义,从而导致查询漂移。因此,我正在考虑创建一个词义
相似
度
矩阵,它将包括查询
和
所有可能的词义之间的
相似
浏览 43
提问于2021-06-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Elasticsearch中的相似度评分介绍
语义相似度在好大夫搜索的优化探索
NLP中关键字提取方法总结和概述
简单的搜索引擎搭建
自然语言语义代码搜索之路
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券