开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

solr:将MLT与edismax一起使用，有没有一种方法可以获取有趣的术语，然后传递给edismax常规查询？

Solr是一个开源的搜索平台，它基于Apache Lucene构建而成。它提供了强大的全文搜索、分布式搜索、面向互联网的搜索等功能。Solr支持多种查询语法和查询解析器，其中edismax是一种常用的查询解析器，MLT（More Like This）是一种用于获取与给定文档相似的文档的功能。

要将MLT与edismax一起使用，并获取有趣的术语传递给edismax常规查询，可以通过以下步骤实现：

配置MLT组件：在Solr的配置文件中，可以配置MLT组件来定义用于获取相似文档的参数。这些参数包括要使用的字段、相似性度量、相似性度量的阈值等。
获取有趣的术语：使用MLT组件来获取与给定文档相似的文档，并从这些文档中提取有趣的术语。可以使用Solr的MLT查询语法来执行此操作。
传递给edismax常规查询：将获取到的有趣术语传递给edismax常规查询，以进一步细化搜索结果。可以将这些术语作为查询的关键词或者通过其他查询参数传递给edismax。

通过将MLT与edismax一起使用，并获取有趣的术语传递给edismax常规查询，可以提高搜索的准确性和相关性，从而更好地满足用户的需求。

腾讯云提供了云搜索服务（Cloud Search），它是基于Solr构建的一站式搜索解决方案。腾讯云云搜索服务提供了全文搜索、分布式搜索、搜索推荐等功能，并且支持Solr的各种特性和功能。您可以通过腾讯云云搜索服务来实现Solr的相关功能和应用场景。

更多关于腾讯云云搜索服务的信息，请访问：腾讯云云搜索服务

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何合理的控制solr查询的命中的数量和质量？

，这种问题大概只有10%的概率，我们可以索引两个字段，来避免这种问题，一个分词，一个不分词，查询时候，可以一起查询两个字段. ---- 回到刚才饭店的那个问题，假如现在有想要搜索一个：北京车道沟北里小庄十里香饭店...这个东西直接用我们的全文检索框架是没法实现的，有个思路不错，就是我们对要搜索的词，提取出句子的主干，然后主干部分在检索时，是必须要命中的，如果不命中，就算该条数据与查询的词，相关性不大，这个方法不错，但前提是你如何在大规模的数据里面精准的提出这些精确的主干词呢...这个使用solr的edismax可以解决，方法如下：使用edismax，在q里写完 name：北京xxxxx饭店后在Raw Query Paramters参数里面写 defType=edismax...&mm=80%25 然后查询即可，mm是最小匹配的数量，可以是个固定的值，也可也是个百分比，因为散仙是在solr的admin页面查询，所以需要把%替换成url字符%25，这样才能正确发送到solr的服务端...具体的资料请看： edismax函数介绍: http://wiki.apache.org/solr/ExtendedDisMax

1.9K5 0

0487-CDH6.1的新功能

默认配置值的更改 1.与AutoAddReplicas功能一起使用的autoReplicaFailoverWaitAfterExpiration的默认值从之前的30秒增加到120秒。...解析器不允许使用本地参数或旧的_query_ magic field trick指定Solr解析器的子查询。...从7.3开始，以新的“.AUTOCREATED”后缀命名，以防止覆盖自定义配置集名称。 4.与Learning to Rank重新排序查询解析一起使用的rq参数不再考虑defType参数。...为了减少因为黑客攻击的影响，Solr会限制将本地参数解析为默认解析器为“lucene”或“func”的上下文时的情况。如果defType = edismax，q = {！...因此，Cloudera建议通过HiveServer2而不是默认方法将数据导入Hive。目前，Sqoop只能使用Kerberos对HiveServer2进行身份验证。

2.5K4 0

solr使用教程二【面试+工作】

6.6分组统计我这里实现分组统计的方法是使用了Solr的Facet组件, Facet组件是Solr默认集成的一个组件. 6.6.1 Facet简介 Facet是solr的高级搜索功能之一,可以给用户提供更友好的搜索体验....这样就造成了矛盾,解决方法为, 将CPU字段设置为不分词不存储,然后建立另外一个字段为它的COPY,对这个COPY的字段进行分词和存储. ?...如上所述，MLT 是与标准 SolrRequestHandler 集成在一起的；MoreLikeThisHandler 与 MLT 结合在一起，并添加了一些其他选项，但它要求发布一个单一的请求。...我将着重讲述 MLT，因为使用它的可能性更大一些。幸运的是，不需要任何设置就可以查询它，所以您现在就可以开始查询。 MLT 要求字段被储存或使用检索词向量，检索词向量以一种以文档为中心的方式储存信息。...MLT 通过文档的内容来计算文档中关键词语，然后使用原始查询词语和这些新词语创建一个新的查询。提交新查询就会返回其他查询结果。

1.4K7 0

Elasticsearch 如何实现相似推荐功能？

4、More Like This 底层逻辑 MLT 查询简单地从输入的待查询文本中提取文本，对其进行分析，通常在字段中使用相同的分析器，然后选择具有最高 tf-idf 的前 K 个词组以形成这些词组的组合查询语句...如果对此评分不了解的同学，推荐阅读：干货 | 一步步拆解 Elasticsearch BM25 模型评分细节实战 | Elasticsearch自定义评分的N种方法 MLT 查询的本质是：从待检索语句中提取文本...，然后用分词器切分，选择 tf-idf 分值高的前 K 个术语形成检索语句。...步骤 3：基于步骤2构造的布尔查询语句，获取查询结果。返回结果就是类似推荐功能的相似文章。...与位置相关的用户定义的二进制值。给了一堆术语，还是看不懂，再来？！给个例子，一看就明白了。

4.1K2 0

搜索正在遍及世界

与Lucene/Solr社区的精英们一起参加活动实在是一次让人无法忘怀的经历。我们可以越来越明显的看到，搜索类控件已经逐渐成为现代应用的主流UI元素。...Lucene社区的一个有趣的例子就是ADP人力资源系统，该系统完全放弃了用户界面，倾向于使用搜索引擎来理解各种动词或者名词所表达出的行为倾向，随后会向用户呈现可以在人力资源系统中采取动作的搜索结果。...Grant Ingersoll和Ted Dunning提出了一个参考架构，该架构表达了这个想法的许多部分。可以使用Solr（一个企业级全文检索服务器，与Lucene类似）作为探索数据的主要方法。...数据不能总是在没有许多烦人的副作用和限制的情况下被非规范化。Solr非常适合跨文档提供非常复杂的连接功能，包括添加模糊连接或自然语言连接。也许与原始查询的相关性可能会影响到第二个查询中的文档。...在我的演讲中，我谈到了这个问题 - 一旦我们从数据库中找到前5个最相关的专业术语，就可以用外行人的术语搜索法律专业术语数据库（汽车（car） - >机动车辆(motor-vehicle)），然后我们可以在

7093 0

第15篇-使用Django进行ElasticSearch的简单方法

开发工具 11.Elasticsearch查询方法 12.Elasticsearch全文查询 13.Elasticsearch查询-术语级查询 14.Python中的Elasticsearch入门 15...那就是我发现ElasticSearch的时候。 ElasticSearch为您的数据索引文档，而不是像常规关系数据库那样使用数据表。这样可以加快搜索速度，并提供其他常规数据库无法获得的其他好处。...现在，您需要实际创建 BlogPostIndex 在ElasticSearch中新创建的映射。您可以执行此操作，还可以创建一种同时进行批量索引的方法-多么方便？...然后，您使用 bulk 并将其传递给实例， Elasticsearch() 该实例将创建与ElasticSearch的连接。...然后，您将生成器传递给常规数据库中 actions= 所有 BlogPost 对象并对其进行迭代，并 .indexing() 在每个对象上调用方法。为什么要使用发电机？

5.3K0 0

C语言·深入理解指针（进阶）

a'; // ch == 'a' return 0; } 还有一种使用方法如下： int main() { char *p = "Hello world"; printf("%s...{} int main() { int arr[3][5] = { 0 }; test(arr); } 同一维数组传参类似，只有第二种是不符合语法规定的形参，因为二维数组可以省略行数，但是不能省略其列数为多少...数组给遍历一次，将arr数组的首元素地址和数组长度传给自定义函数print，由于数组中的元素在内存中是连续存放的，故可以用for循环进行遍历； 4.4 二级指针传参 void func(int** pp...(*)())0)(); //代码2 void (*signal(int , void(*)(int)))(int); 第一种： void (*)()是函数指针类型，将0强制类型转换成函数指针，并解引用，...如果你把函数的指针（地址）作为参数传递给另一个函数，当这个指针被用来调用其所指向的函数时，我们就说这是回调函数。

1271 0

第21篇-使用Django进行ElasticSearch的简单方法

开发工具 11.Elasticsearch查询方法 12.Elasticsearch全文查询 13.Elasticsearch查询-术语级查询 14.Python中的Elasticsearch入门 15...那就是我发现ElasticSearch的时候。 ElasticSearch为您的数据索引文档，而不是像常规关系数据库那样使用数据表。这可以加快搜索速度，并提供其他常规数据库无法获得的其他好处。...现在，您需要实际创建BlogPostIndex在ElasticSearch中新创建的映射。您可以执行此操作，还可以创建一种同时进行批量索引的方法-多么方便？...因为只要在我们的模型中进行某些更改，您就只想进行批量索引编制，因此可以将其映射到ElasticSearch中的模型。然后，您使用并将其实例传递给它将创建与ElasticSearch的连接。...然后，您将生成器传递到常规数据库中所有BlogPost对象并对其进行迭代，并.indexing()在每个对象上调用方法。为什么要使用发电机？

3.3K0 0

23个有用的Elasticsearch示例查询

“ _all”字段的工作原理是将所有字段连接成一个大字段，使用空格作为分隔符，然后分析和索引字段。在ES6中，默认情况下已弃用和禁用此功能。...模糊查询可以在匹配和多匹配查询上启用模糊匹配以捕获拼写错误。基于与原始单词的Levenshtein距离来指定模糊度，即，一个字符的数量需要对一个字符串进行更改以使其与另一个字符串相同。...请求参数 query_string查询提供了一种以简洁的简写语法执行multi_match 查询，bool查询，提升，模糊匹配，通配符，正则表达式和范围查询的方法。...- 已排序术语查询结果（与任何其他查询结果一样）可以轻松排序。...过滤的Bool查询使用bool查询时，可以使用filter子句来过滤查询结果。

9.8K2 0

数据治理之元数据管理的利器——Atlas入门宝典（万字长文）

图形引擎: Atlas在内部使用Graph模型持久保存它管理的元数据对象。这种方法提供了很大的灵活性，可以有效地处理元数据对象之间的丰富关系。...它也是查询和发现Atlas管理的类型和实体的主要机制。 Messaging: 除了API之外，用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。...=）适用于数字、日期、字符串属性 LIKE（符号：like、LIKE）与字符串属性一起使用 STARTS_WITH（符号：startsWith、STARTSWITH）与字符串属性一起使用 ENDS_WITH...glossary 词汇表，也称术语表为业务用户提供适当的词汇表，它允许术语（词）相互关联并分类，以便在不同的上下文中理解它们。然后可以将这些术语映射到数据库、表、列等资产。...这有助于抽象与存储库相关的技术术语，并允许用户发现/使用他们更熟悉的词汇表中的数据。通过单击词汇表 UI 中的术语名称，可以查看术语的各种详细信息。

2.7K2 3

SolrLucene优劣势分析

最后汇聚成为“检索质量”，而这个标准是很难形成和取得相应口碑的。经验成为了搜索中的重要财富，而solr、lucene原理、源码只是一种最为基础和最为不可缺失的工具。...—-当然，build和search分离是可以解决这个问题的，也是常规做法。...—-当然可以将数据分区，避免merge (7) 得分因子是可以调整的，但是得分因子的增加、得分公式的扩展，无法直接从solr配置插入。...当然一般情况下是不需要这么复杂的优化。（26）一些比较变态的查询需求不是特别高效。例如查询某个域不空。当然可以将空域采取默认值代替，查询默认值再过滤。...、查询分布式 (7) filter 过滤，bitmap的使用 (8) 各种cache的配置和使用以及监控 (9) 各种插件化支持、扩展灵活 (10) query 的and 与 or以及组合 (11) Top

1.2K4 0

Solr理论基础

搜索引擎是为了解决传统数据库的缺点而产生的。它主要是用来搜索大量非结构化文本，并返回最相关的搜索文本。 Solr简介 Solr是搜索引擎的一种，主要用来文档存储与检索。...布尔查询假设用户要查询“new house”，Solr默认配置是将词项或短语视为可选的，在单查询上可进行配置，使用URL里的q.op参数配置多种查询句柄。 /select/?...常见的布尔查询运算的图形化表示短语查询与术语位置在Lucene索引上除了可以查询词项之外，还可以查询短语。但是索引只包含单个的词项，那么如何搜索完整的短语呢？...首先，使用布尔模型过滤出不符合用户查询的所有文档。然后，使用向量空间模型通过计算和绘制将查询和文档转换为向量，在此基础上计算相似度得分。 ?...在这种情况下，我们可以将内容拆分到两个单独的solr索引中，每一个索引包含单独的一部分数据。每次搜索运行时，会自动被同时发送到两台服务器上，分别进行处理后汇总在一起后再返回给搜索引擎。

1.6K3 0

分布式日志收集之Logstash 笔记（二）

下面看几个案例：案例（一）使用gork提取Solr搜索的log里面的一些字段内容：例子数据（注意这是一行数据）： Java代码 INFO - 2015-11-03 06:10:53.106...案例（三）使用ruby内嵌代码，将一个yyyy-MM-dd HH:mm:ss格式的日期，转换成long时间戳接着案例二的代码，再其filter里面再加入如下一段代码： ?...如果会点JRuby或者Ruby语法，来使用Logstash则可以做更多的自定义的处理任务案例（四）使用codec+multiline来处理跨行的日志什么场景下，需要使用multiline插件呢...方法（1）：在input阶段的编码过程中，加入正则判断： ?...方法（2）：还是在input阶段，但是使用的触发模式，直到遇到下一行日志前，把这一行与下一行之间的所有内容都当成是一行，这种做法比较简单，优点时在性能与准确度上可能会比上一个方法好，但是缺点是，必须有下一行日志产生

7846 0

如何将结构化数据导入Solr

它与任何其他ETL工具一样方便- 您无需编写调用SolrJ的Java代码并在IDE中调试SQL查询结果。如果使用DIH，您可以只使用配置和复制粘贴式查询就能够在SolrAdmin中把玩查询和数据。...为了解决并发问题，我们可以在逻辑上使用特制的查询将数据分片，并且平行的启动每个分片导入(线程)。...正如在上面提到的SOLR-2382中所完全描述的那样：“在子实体中使用SqlEntityProcessor可能导致”n + 1选择“问题”，这个术语让我回想起以前在IT中面临的挑战，因此无法它在一段合理的时间...我们在使用序列化处理时会有生产者 - 消费者的一般陷阱 -即每个人都在等待其相对的一方： | 我们在DIH中有什么 | 我们想要什么 | 请注意，如果将DIH与SolrCloud一起运行，则会出现同样的问题...其中一种可能的解决方法是使用XML DOM作为数据结构，但不能在转换步骤之间按原样进行转换，并且需要将其转换为字符串，把一系列数据连接起来并再次分片，就像我们在这里一样。

2.1K2 0

Elasticsearch入门与实战

StackOverflow将全文搜索与地理位置和相关信息进行结合，以提供more-like-this相关问题的展现。 GitHub使用Elasticsearch来检索超过1300亿行代码。...1.4.3> Elasticsearch与Solr的比较当单纯的对已有数据进行搜索时，Solr更快当实时建立索引时，Solr会产生io阻塞，查询性能较差，而ES具有明显的优势随着数据量不断增加...比如有如下3个文档：文档1：今天我们一起学习Elasticsearch 文档2：Elasticsearch学习起来真有趣文档3：今天大家下课一起吃烧烤怎么样正序索引文档的ID ——> 关键词N：...出现的次数，出现的位置列表文档1：【今天】【我们】【一起】【学习】【Elasticsearch】文档2：【Elasticsearch】【学习】【起来】【真】【有趣】文档3：【今天】【大家】【下课】...也就是说，如果我们的搜索词写得不够“精确”，那就很难搜索到东西了。而我们上面例子使用的match，它是先对【搜索词】进行分词，然后使用分词器解析文档，然后再进行查询。

1.2K3 1

【搜索引擎】Apache Solr 神经搜索

我们可以将搜索概括为四个主要领域：生成指定信息需求的查询表示生成捕获包含的信息的文档的表示匹配来自信息语料库的查询和文档表示为每个匹配的文档分配一个分数，以便根据结果中的相关性建立一个有意义的文档排名...Hierarchical Navigable Small World Graph (HNSW) 是一种基于邻近邻域图概念的方法：与信息语料库相关联的向量空间中的每个向量都唯一地与一个 vertex...与过滤查询一起使用 knn 查询解析器可用于过滤查询： &q=id:(1 2 3)&fq={!...knn f=vector topK=10}[1.0, 2.0, 3.0, 4.0] knn 查询解析器可以与过滤查询一起使用： &q={!...因此，如果文档 d 不存在于 knn 结果中，即使与目标查询向量的距离向量计算不为零，您对原始分数的贡献也为零有关使用 ReRank 查询解析器的详细信息，请参阅 Apache Solr Wiki[13

1.1K1 0

solr

使用函数查询的方法这里主要有三种方法可以使用函数查询，这三种s方法都是通过solr http接口的。 1) 使用FunctionQParserPlugin。ie: q={!...func}log(foo) 2) 使用“_val_”内嵌方法内嵌在正常的solr查询表达式中。即，将函数查询写在 q这个参数中，这时候，我们使用“_val_”将函数与其他的查询加以区别。...如上所述，MLT 是与标准 SolrRequestHandler 集成在一起的；MoreLikeThisHandler 与 MLT 结合在一起，并添加了一些其他选项，但它要求发布一个单一的请求。...我将着重讲述 MLT，因为使用它的可能性更大一些。幸运的是，不需要任何设置就可以查询它，所以您现在就可以开始查询。　　...MLT 要求字段被储存或使用检索词向量，检索词向量以一种以文档为中心的方式储存信息。MLT 通过文档的内容来计算文档中关键词语，然后使用原始查询词语和这些新词语创建一个新的查询。

11.1K2 0

数据治理之元数据管理的利器——Atlas入门宝典

图形引擎: Atlas在内部使用Graph模型持久保存它管理的元数据对象。这种方法提供了很大的灵活性，可以有效地处理元数据对象之间的丰富关系。...它也是查询和发现Atlas管理的类型和实体的主要机制。 Messaging: 除了API之外，用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。...=）适用于数字、日期、字符串属性 LIKE（符号：like、LIKE）与字符串属性一起使用 STARTS_WITH（符号：startsWith、STARTSWITH）与字符串属性一起使用 ENDS_WITH...glossary 词汇表，也称术语表为业务用户提供适当的词汇表，它允许术语（词）相互关联并分类，以便在不同的上下文中理解它们。然后可以将这些术语映射到数据库、表、列等资产。...这有助于抽象与存储库相关的技术术语，并允许用户发现/使用他们更熟悉的词汇表中的数据。通过单击词汇表 UI 中的术语名称，可以查看术语的各种详细信息。

1.7K2 0

Running Solr on Kubernetes

借助Kubernetes，运维团队可以使用标准工具专注与集群调整，监控，性能测试，日志，报警等。...建议使用GKE选项，因为您可以快速部署多个节点，GKE是一个学习k8s概念的有趣环境，Google会给您$ 300的免费赠金以开始使用。...安装Tiller是使用Helm的最常见方法，但并不需要按照本文进行操作。...对于使用一个replication因子的集合，情况将更加糟糕，因为没有其他副本可以与之同步。这个问题并非Solr独有。...您可以使用UI从UI获取有关持久卷附加的存储的详细信息，如下所示： [avatar] 或者通过命令： kubectl describe PersistentVolumeClaim solr-pvc-solr

6.3K0 0

数据治理之元数据管理的利器——Atlas入门宝典

图形引擎: Atlas在内部使用Graph模型持久保存它管理的元数据对象。这种方法提供了很大的灵活性，可以有效地处理元数据对象之间的丰富关系。...它也是查询和发现Atlas管理的类型和实体的主要机制。 Messaging: 除了API之外，用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。...=）适用于数字、日期、字符串属性 LIKE（符号：like、LIKE）与字符串属性一起使用 STARTS_WITH（符号：startsWith、STARTSWITH）与字符串属性一起使用 ENDS_WITH...glossary 词汇表，也称术语表为业务用户提供适当的词汇表，它允许术语（词）相互关联并分类，以便在不同的上下文中理解它们。然后可以将这些术语映射到数据库、表、列等资产。...这有助于抽象与存储库相关的技术术语，并允许用户发现/使用他们更熟悉的词汇表中的数据。通过单击词汇表 UI 中的术语名称，可以查看术语的各种详细信息。

4.2K3 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭