吃透 | Elasticsearch filter和query的不同

少啰嗦,直接看东西。——罗永浩

1、query和filter的本质区别?

以下几张图能更好的概括:

query关注点:此文档与此查询子句的匹配程度如何?

filter关注点:此文档和查询子句匹配吗?

2、Query检索细化关注点

1)是否包含?

确定文档是否应该成为结果的一部分.

2)相关度得分多少?

除了确定文档是否匹配外,查询子句还计算了表示文档与其他文档相比匹配程度的_score。

3)得分越高,相关度越高。

更相关的文件,在搜索排名更高。

典型应用场景:

1)全文检索——这种相关性的概念非常适合全文搜索,因为很少有完全“正确”的答案。

举例如下:

文档中存在字段hotel_name:“上海浦东香格里拉酒店”

IK实际分词结果如下: 上海浦东,上海,浦东,香格里拉,格里,里拉,酒店。

也就是说,搜索以上关键词都能搜到:hotel_name:“上海浦东香格里拉酒店”的酒店。这些都是“相关”的。

但是搜索:“香格里” 是搜索不到结果的。

2)包含单词“run”, 但也匹配"runs", "running", "jog"或者"sprint"。(都是奔跑的意思)

3、filter过滤细化关注点

1)是否包含?

确定是否包含在检索结果中,回答只有“是”或“否”。

2)不涉及评分。

在搜索中没有额外的相关度排名。

3)针对结构化数据。

适用于完全精确匹配,范围检索。

参见官网举例: 以下场景适用于filter过滤检索:

举例1:时间戳timestamp 是否在2015至2016年范围内?

举例2:状态字段status 是否设置为“published”?

4)更快

只确定是否包括结果中,不需要考虑得分。

为什么会更快?——经常使用的过滤器将被Elasticsearch自动缓存,以提高性能。

4、query和filter的性能不同

过滤查询(filter)是对集合包含/排除的简单检查,这使得它们计算速度非常快。 当至少有一个过滤查询是“稀疏”(仅有少量匹配的文档)时,可以利用各种优化,并且可以将缓存经常使用的filter过滤查询缓存在内存中以加快访问速度。

对比之下,query检索(评分查询)不仅要查找匹配的文档,还要计算每个文档的相关程度,这通常会使其比非评分文档更复杂。 另外,查询结果不可缓存

由于倒排索引,只有几个文档匹配的简单评分查询(query检索)可能会比跨越数百万个文档的过滤器(filter过滤)表现得更好。 但是,一般来说,fiter过滤的性能将胜过评分查询(query检索)。

过滤(filter)的目标是减少必须由评分查询(query)检查的文档数量。

5、filter过滤怎么缓存呢?

Elasticsearch将创建一个文档匹配过滤器的位集bitset(如果文档匹配则为1,否则为0)。 随后用相同的过滤器执行查询将重用此信息。

每当添加或更新新文档时,位集bitset也会更新。

6、使用场景

  • 全文检索以及任何使用相关性评分的场景使用query检索。
  • 除此之外的其他使用filter过滤器过滤。

7、query和filter实战

ebay在Elasticsearch使用经验中总结到:

Use filter context instead of query context if possible.

即:如果可能,请使用filter过滤器上下文而不是query查询上下文

查询query和过滤器filter已合并(在ES1.X版本是分开的,存在filtered检索类型)。

ES高版本(2.X/5.X/6.x以后),任何查询子句都可以在“查询上下文query”中用作查询,并在“过滤器上下文filter”中用作过滤器。

举例:

 1GET /_search
 2{
 3  "query": { 
 4    "bool": { 
 5      "must": [
 6        { "match": { "title":   "Search"        }}, 
 7        { "match": { "content": "Elasticsearch" }}  
 8      ],
 9      "filter": [ 
10        { "term":  { "status": "published" }}, 
11        { "range": { "publish_date": { "gte": "2015-01-01" }}} 
12      ]
13    }
14  }
15}

8、小结

官网&源码才是王道。

多看、多思、多总结。弄清原理,高效开发才有了保障!

参考:

1、官网:

http://t.cn/R14moYO http://t.cn/R14kLl6

2、实战:

http://t.cn/R1bZwy8 http://t.cn/RQhzDiP

3、Google工程师视频

原文发布于微信公众号 - 铭毅天下(gh_0475cf887cf7)

原文发表时间:2018-05-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

手写体数字识别该如何选择GPU并实现?DeepLearning4j 实战

在之前的博客中已经用单机、Spark分布式两种训练的方式对深度神经网络进行训练,但其实DeepLearning4j也是支持多GPU训练的。 这篇文章我就总结下用...

3093
来自专栏专知

【干货】TensorFlow协同过滤推荐实战

【导读】本文利用TensorFlow构建了一个用于产品推荐的WALS协同过滤模型。作者从抓取数据开始对模型进行了详细的解读,并且分析了几种推荐中可能隐藏的情况及...

46411
来自专栏机器学习实践二三事

Tensorflow实现word2vec

大名鼎鼎的word2vec,相关原理就不讲了,已经有很多篇优秀的博客分析这个了. 如果要看背后的数学原理的话,可以看看这个: https://wenku.b...

2517
来自专栏机器人网

机器人零点标定方法

一、哪些情况需要标定零点 零点是机器人坐标系的基准,没有零点,机器人就没有办法判断自身的位置。 机器人在如下情况下要重新标定零点: 1.进行更换电机、机械系统...

3226
来自专栏嵌入式程序猿

【电机控制不得不学习的干货:】 飞思卡尔MCU正交编/解码器模块

在电机控制领域,我们经常需要得到电机的转速,位置来执行算法,那么想知道转速是如何获得的吗?看过来,猿来你在这里O(∩_∩)O~ 正交编码器简介 飞思卡尔增强型正...

25811
来自专栏人工智能LeadAI

从学习 Paddle 开始学习深度学习

优点 灵活性:PaddlePaddle支持广泛的神经网络结构和优化算法,很容易配置复杂的模型,如基于注意力(Attention)机制或复杂的内存(Memory)...

3153
来自专栏CSDN技术头条

大数据并行计算利器之MPI/OpenMP

1 背景 图像连通域标记算法是从一幅栅格图像(通常为二值图像)中,将互相邻接(4邻接或8邻接)的具有非背景值的像素集合提取出来,为不同的连通域填入数字标记,并且...

2216
来自专栏IT派

最新|官方发布:TensorFlow 数据集和估算器介绍

TensorFlow 1.3 引入了两个重要功能,您应当尝试一下: 数据集:一种创建输入管道(即,将数据读入您的程序)的全新方式。 估算器:一种创建 Tens...

4145
来自专栏SDNLAB

SDN应用路由算法实现工具之Networkx

SDN(Software Defined Networking)是一种新型的网络架构,通过集中式的控制平面管理数据层面的转发等操作。网络的连通性是最基础的需求,...

2669
来自专栏数据和云

Oracle 12c 新特性:SQL Plan Directives与过量的动态采样解析

在 12c 中,优化器进行了较大的改变,推出了 Adaptive query optimization,从整体上说,Adaptive query optimiz...

842

扫描关注云+社区