ElasticSearch里面的路由功能介绍

在ElaticSearch里面,路由功能算是一个高级用法,大多数时候我们用的都是系统默认的路由功能,我们知道一个es索引可以分多个shard和每个shard又可以有多个replia,那么现在思考一个问题,我们添加进去的数据,是如何分布在各个shard上面的,而查询时候它是又怎么找到特定的数据呢。

默认情况下,索引数据的分片规则,是下面的公式:

_routing字段的取值,默认是_id字段或者是_parent字段,这样的取值在hash之后再与有多少个shard的数量取模,最终得到这条数据应该在被分配在那个一个shard上,也就是说默认是基于hash的分片,保证在每个shard上数据量都近似平均,这样就不会出现负载不均衡的情况,然后在检索的时候,es默认会搜索所有shard上的数据,最后在master节点上汇聚在处理后,返回最终数据。

但有时候,我们会有另外一种情况,比如说存储一年的数据,如果按hash去索引,那就是分布非常均匀,这样的话无论查询什么数据都会去所有的shard上查询,如果数据量比较大,那么响应速度就比较慢,但这时,我们通过调查发现,一年12个月的数据本身分布并不均匀,有几个月的数据偏多,有几个月的数据偏少,理想情况下,数据偏少的月,查询性能应该更快,但如果是基于hash分片,那么我们并不能实现这种需求,因为hash分片,查询时候必须要命中所有shard之后,查询的结果才是准的,这样以来,每次查询都要扫描所有shard,比如我已经知道数据本身就是1月份的,那其实最好的情况下,只查询1月的数据就行,而不需要把一年的数据都扫描一遍,导致最终的结果就是慢的更慢,快的也慢,所以我们要针对性的做优化。

那么如何优化,其实思路也比较明确了,那就是按照月份分区,每一个月的数据都存在指定的分区中,如果是mysql那就是每个月份一张表,然后查询时候,直接查询对应月份的数据即可,在es和solr中原理也大致如此,唯一不同的地方在于es和solr都比较方便的支持了路由字段的设置而如果是数据库,则需要自己通过中间件的方式来搞定,比如说mycat等。

下面来介绍如何在es中使用路由字段,先看一个官网给的简单的例子:

上面的代码中,指定了一个用户属性作为路由进行分区,然后查询的时候也必须指定路由。这一点需要注意 只要在索引时候加入路由字段,那么在以后的get,delete,update操作中都必须使用路由字段,否则会出现问题。

当然,路由字段本身,也是可以被查询的,看下面的代码:

除此之外,路由字段,也可以指定多个:

如果指定多个用户属性,那么es会仅仅查询关联了这两个route属性的shard

如果加入路由字段之后,其他的操作(indexing,getting,deleting,updating)都必须指定路由字段,为了避免在使用时忘记添加 路由字段,导致同类数据会分布在多个shard上,这就违反了路由的原则,所以我们可以在mapping中 设置路由字段是必须字段,否则会提示错误:

缺失路由字段会抛出异常:

还需要注意到是如果使用了路由字段,那么_id字段只能由用户保证唯一性,因为同一个id的数据,如果路由字段不一样 它是可以被存在到多个shard中的,而默认情况下是不会出现这种情况的。

最后接着说开头的例子,如果某个月数据量偏大,全部路由到一个shard里面依然性能有问题,es也提供了 同一个路由的字段的数据可以被分配到多个shard上,注意这是是多个shard,而不是所有shard,当然这里面有一定 限制一般情况下,不建议使用这种模式。

对solr中路由感兴趣的朋友,可以查看我以前写的文章:

http://qindongliang.iteye.com/blog/2312193

参考资料:

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-routing-field.html

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2017-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

KeepAlived双主模式高可用集群

一、keepalived简介 keepalived是vrrp协议的实现,原生设计目的是为了高可用ipvs服务,keepalived能够配置文件中的定义生成ipv...

4317
来自专栏信安之路

Linux需要谨慎使用的几个命令

运维人员经常接触的Linux系统比较多,在Linux下的管理与操作通常都是通过命令行的方式对服务器进行操作,为了操作安全,有些命令的危害是特别大的,需要谨慎使用...

981
来自专栏xiaoheike

elasticsearch(es) 集群恢复触发配置(Local Gateway参数)

当你集群重启时,几个配置项影响你的分片恢复的表现。 首先,我们需要明白如果什么也没配置将会发生什么。

3392
来自专栏木头编程 - moTzxx

小程序 报错 errcode: 40029, errmsg: "invalid code, hints: [ req_id: HQd79a0747th31 ]

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011415782/article/de...

2.2K4
来自专栏java沉淀

provisional headers are shown 原因分析

4986
来自专栏北京马哥教育

KeepAlived双主模式高可用集群

一、keepalived简介 keepalived是vrrp协议的实现,原生设计目的是为了高可用ipvs服务,keepalived能够配置文件中的定义生成ipv...

4339
来自专栏Java架构师学习

日志: 分布式系统的核心日志的应用

最近这段时间一直在研究消息队列、文件系统、数据库等,慢慢的发现他们都有一个核心组件:日志.有时也叫write-ahead logs 、commit logs 或...

3257
来自专栏码神联盟

碎片化 | 第九阶段-03-互联网常见技术结构图概述-视频

如清晰度低,可转PC网页观看高清版本: http://v.qq.com/x/page/e0501hpo9n0.html 负载均衡架构 数据库的数据一致性: 1...

3775
来自专栏数值分析与有限元编程

Fortran知识 | DLL缺失

编写代码的目的是计算得到结果。或者是发布一个程序(exe或其他)给别人,甚至是作为商业软件出售给别人使用。有时编译后的exe程序再复制到其他计算机上独立运行会出...

2255
来自专栏hadoop学习笔记

超详细hadoop系统安装教程(附步骤)

在前几篇的文章中分别就虚拟系统安装、LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤。

1593

扫码关注云+社区

领取腾讯云代金券