前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >图解:Elasticsearch 8.X 如何求解环比上升比例?

图解:Elasticsearch 8.X 如何求解环比上升比例?

作者头像
铭毅天下
发布2022-12-22 20:15:45
9270
发布2022-12-22 20:15:45
举报
文章被收录于专栏:铭毅天下

1、企业级Elasticsearch 8.X 实战问题

问题描述:有个聚合的需求,问下大家,一个索引中有时间字段 要求 计算本月和上月相比的环比上升比例?——来自GPVIP群

2、问题释义

2.1 啥叫环比?

环比是统计学术语,表示连续2个统计周期内的量的变化比。

2.2 Elasticsearch 怎么做计算问题?

其实这个问题比较大,从大的角度讲:Elasticsearch 更适合做检索,能做脚本计算处理,但会有性能问题。

官方明确强调:

Avoid script——If possible, avoid using script-based sorting, scripts in aggregations, and the script_score query.

通俗点说,避免使用脚本,除非特殊情况必须使用。

Elasticsearch 能支持的计算问题如下几种方式:

  • 脚本检索(script query) 脚本检索参见:
  • 脚本聚合(script aggregation)参见:

基于儿童积木玩具图解 Elasticsearch 聚合

  • 脚本预处理(ingest pipeline 之 script pipeline)。

预处理参见:

  1. Elasticsearch 预处理没有奇技淫巧,请先用好这一招!
  2. Elasticsearch的ETL利器——Ingest节点

3、问题拆解

回归我们的问题,分两个维度拆解。

  • 维度1:从数据到结果。原始的数据至少包含两个字段:日期字段和数据字段,并没有基于日期的汇总数据。

也就是说,汇总结果数据,需要我们借助聚合实现。

  • 维度2:从结果到数据。

最终结果需要临近的两个月份的汇总结果计算求得,需要借助:bucket_script 子聚合实现。而bucket_script 需要两重聚合,且嵌套到内层实现。

可以通过如下三个步骤实现,如下脑图梳理。

  • 步骤1:创建索引。
  • 步骤2:导入数据(自己构造)。
  • 步骤3:聚合实现(最核心)。

聚合的实现是问题求解的关键。

  • 最外层聚合:时间范围聚合,借助Date Range筛选近两个月的数据。
  • 内层聚合:分别求解出本月和前一个月的数据。其实又需要拆解为两层聚合。
    • 第一层:过滤当月和前一个月的时间范围。借助:filter aggs 实现。
    • 第二层:指标 sum aggs 聚合实现结果求和统计。
  • 与上内层同级实现 bucket_script 结果求解,计算环比!

4、问题求解

按照上面脑图拆解的三个步骤搞定实现。视频如下:

4.1:step1 创建索引且指定Mapping!

代码语言:javascript
复制
DELETE test-20221109
PUT test-20221109
{
  "mappings": {
    "properties": {
      "insert_date": {
        "type": "date"
      },
      "count": {
        "type": "integer"
      }
    }
  }
}

4.2 step2 :写入数据

代码语言:javascript
复制
POST test-20221109/_bulk
{"index":{"_id":1}}
{"insert_date":"2022-11-09T12:00:00Z","count":5}
{"index":{"_id":2}}
{"insert_date":"2022-11-08T12:00:00Z","count":150}
{"index":{"_id":3}}
{"insert_date":"2022-12-09T12:00:00Z","count":33}
{"index":{"_id":4}}
{"insert_date":"2022-12-08T12:00:00Z","count":44}
{"index":{"_id":5}}
{"insert_date":"2022-12-09T12:00:00Z","count":55}
{"index":{"_id":6}}
{"insert_date":"2022-12-08T12:00:00Z","count":66}

4.3 step3:聚合求解环比

代码语言:javascript
复制
POST test-20221109/_search
{
  "size": 0,
  "aggs": {
    "range_aggs": {
      "range": {
        "field": "insert_date",
        "format": "yyyy-MM-dd",
        "ranges": [
          {
            "from": "2022-11-01",
            "to": "2022-12-31"
          }
        ]
      },
      "aggs": {
        "11month_count": {
          "filter": {
            "range": {
              "insert_date": {
                "gte": "2022-11-01",
                "lte": "2022-11-30"
              }
            }
          },
          "aggs": {
            "sum_aggs": {
              "sum": {
                "field": "count"
              }
            }
          }
        },
        "12month_count": {
          "filter": {
            "range": {
              "insert_date": {
                "gte": "2022-12-01",
                "lte": "2022-12-31"
              }
            }
          },
          "aggs": {
            "sum_aggs": {
              "sum": {
                "field": "count"
              }
            }
          }
        },
        "bucket_division": {
          "bucket_script": {
            "buckets_path": {
              "pre_month_count": "11month_count > sum_aggs",
              "cur_month_count": "12month_count > sum_aggs"
            },
            "script": "(params.cur_month_count - params.pre_month_count) / params.pre_month_count"
          }
        }
      }
    }
  }
}

求解结果如下:

5、小结

其实这个聚合实现相当复杂,且不够灵活,可扩展性不强。

业务选型层面,如果非实时求解的场景,真的不建议这么做。

我们可以定时离线计算结果统计,借助 Java 或者 python 等代码实现更为顺畅和“丝滑”。

你的业务层面有没有遇到类似问题?欢迎留言说一下你的方案。

6、推荐

1全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

2Elasticsearch 8.X 如何实现更精准的检索?

3、Elasticsearch 检索性能优化实战指南

4、Elasticsearch 预处理没有奇技淫巧,请先用好这一招!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 铭毅天下Elasticsearch 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、企业级Elasticsearch 8.X 实战问题
  • 2、问题释义
    • 2.1 啥叫环比?
      • 2.2 Elasticsearch 怎么做计算问题?
      • 3、问题拆解
      • 4、问题求解
        • 4.1:step1 创建索引且指定Mapping!
          • 4.2 step2 :写入数据
            • 4.3 step3:聚合求解环比
            • 5、小结
            • 6、推荐
            相关产品与服务
            Elasticsearch Service
            腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档