Elasticsearch6.X 去重详解

1、题记

Elasticsearch有没有类似mysql的distinct的去重功能呢?

1)如何去重计数? 类似mysql: select distinct(count(1)) from my_table; 2)如何获取去重结果。 类似mysql:SELECT DISTINCT name,age FROM users;

2、需求

1)对ES的检索结果进行去重统计计数。 2)对ES的检索结果去重后显示。

3、分析

1)统计计数需要借助ES聚合功能结合cardinality实现。 2)去重显示结果有两种方式: 方式一:使用字段聚合+top_hits聚合方式。 方式二:使用collapse折叠功能。

4、DSL源码

1)统计去重数目。

 1GET books/_search
 2{
 3"size":0,
 4"aggs" : {
 5"books_count" : {
 6"cardinality" : {
 7"field" : "title.keyword"
 8}
 9}
10}
11}

2)返回去重内容

方式一:top_hits聚合

 1GET books/_search
 2{
 3"query": {
 4"match_all": {}
 5},
 6"aggs": {
 7"type": {
 8"terms": {
 9"field": "title.keyword",
10"size": 10
11},
12"aggs": {
13"title_top": {
14"top_hits": {
15"_source": {
16"includes": ["title"]
17},
18"sort": [
19{
20"title.keyword": {
21"order": "desc"
22}
23}
24],
25"size":1
26}
27}
28}
29}
30},
31"size": 0
32}

方式二:折叠

1GET books/_search
2{
3"query": {
4"match_all":{}
5},
6"collapse": {
7"field": "title.keyword"
8}
9}

方式二较方式一: 1)简化; 2)性能比aggs的实现要好很多。 更多DSL详见:http://t.cn/RmafXMJ

5、注意事项&小结

  • 折叠功能ES5.3版本之后才发布的。
  • 针对字符串类型,聚合&折叠只能针对keyword类型有效;
  • 只要思想不滑坡,方案总比问题多!

参考: https://elasticsearch.cn/article/132

原文发布于微信公众号 - 铭毅天下(gh_0475cf887cf7)

原文发表时间:2018-04-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏码匠的流水账

nginx limit配置参数解读

本文主要解析一下ngx_http_core_module、ngx_http_limit_conn_module以及ngx_http_limit_req_modu...

2552
来自专栏Java架构沉思录

Java面试通关宝典(二)

前言 在之前的文章《Java面试通关宝典(一)》中,沉思君为大家介绍了几道常见的面试题与参考答案,有些题目还附有延伸问题,如果不清楚这些题目的思路,可以申请进...

2847
来自专栏Golang语言社区

【Go 语言社区】JS 相关---Window Location

window.location 对象用于获得当前页面的地址 (URL),并把浏览器重定向到新的页面。 Window Location window.locati...

3157
来自专栏智能大石头

新生命开发团队Orm框架XCode v3.5.2009.0714源码发布(圣诞随心大礼包)

忙忙碌碌有一年!做了很多东西,到头来,似乎又什么都没有做。人继续变老,程序继续改进。     这段时间从我们各个系统抽取了基础的常用的部分,整理后形成了一个...

2097
来自专栏喵了个咪的博客空间

phalapi-入门篇5(数据库操作和Model层)

#phalapi-入门篇5(数据库操作和Model层)# ? ##前言## 先在这里感谢phalapi框架创始人@dogstar,为我们提供了这样一个优秀的开源...

4227
来自专栏最高权限比特流

Servlet详细教程

3064
来自专栏我的博客

TP入门第七天

Trace信息无法显示,因为信息需要显示在body体内 1、创建数据 我们在php的action里面当然也可以使用$_POST以及$_GET获取变量,而TP提供...

2874
来自专栏开发与安全

linux系统编程之基础必备(二):C 标准IO 库函数与Unbuffered IO函数

先来看看C标准I/O库函数是如何用系统调用实现的。  fopen(3)  调用open(2)打开指定的文件,返回一个文件描述符(就是一个int 类型的编号),...

2129
来自专栏行者常至

Hibernate 的延迟加载(懒加载)简介1

1192
来自专栏nummy

Tornado入门(六)【模板和UI】

Tornado也可以使用其他任意的模板引擎, 尽管并没有明确规则如何在RequestHandler.render整合进这些引擎。实际上只需要将模板渲染成字符串,...

1071

扫码关注云+社区

领取腾讯云代金券