专栏首页YG小书屋ES存在unassinged shard的调试方式

ES存在unassinged shard的调试方式

这篇博客是 http://www.jianshu.com/p/443cf6ce87d5 的一个补充。

查看ES的状态
 curl -XGET 'http://unknow.com/_cat/health?v&pretty'

发现集群的状态为red,且存在unassinged shard。

查看哪些shard是unassigned
curl -XGET 'http://unknow.com/_cat/shards?v&pretty' | grep UNASSIGNED

为什么会存在unassinged的shard呢?

ES查看unassigned 原因的命令:
curl noahes.isec.oa.com/_cluster/allocation/explain?pretty -d '{"index":"index-name","shard":0,"primary":true}'

查看原因可知是因为[设备上没有足够的空间]。

查看各结点的存储使用情况
curl -XGET 'http://unknow.com/_cat/allocation?v&pretty'

这个可以查看每个结点的磁盘使用情况,奇怪的是并没有结点的存储满了,最高的也使用不到70%。为什么呢? 后面查看节点各个盘的使用情况,发现有一个盘的使用量超出了ES的默认配置,达到了87%,在merge的过程中,磁盘使用量超出了限制,所以会引起shard unassigned。

为什么存储会超过磁盘限制呢?ES不是有自动rebalance的策略吗?

原因是设置的shard数太少了,查看shard状态可知,一个shard的大小有100多G,磁盘大小只有250G,如果该磁盘上有两个这样的shard,在Segment合并是肯定会出现问题。在数据量较小的时候,ES给该磁盘分配了两个shard,随着数据的增加,shard越来越大,导致问题出现。

解决方案

参考ES提供的reroute api手动移动分片即可。

curl -XPOST 'http://unknow.com/_cluster/reroute?retry_failed=5&pretty' -d '
{
  "commands" : [ {
    "allocate_stale_primary" : {
        "index" : "myindex",
        "shard" :0,
        "node" : "node-ip",
        "accept_data_loss" : true
    }
  }]
}'

自动移动分片的命令如下:

  curl -XPOST 'http://unknow.com/_cluster/reroute?retry_failed
如何避免问题再现?

先把大的分片移到剩余空间大的结点,增加shard数。

为什么上午执行retry_failed命令,unassigned shard没有被分配,下午执行同样的命令就被分配了?

关于ES集群的Cluster Level Shard AllocationDisk-Based Shard Allocation,大家可以自己看一下。在Disk-Based Shard Allocation中有提到一个属性cluster.routing.allocation.disk.include_relocations,这个属性为true时,ES会自动检测磁盘的占用量。如果磁盘占用量超出cluster.routing.allocation.disk.watermark.high 配置的阈值,ES会自动relocate shard,上午ES集群还没有或者说正在移动超过磁盘限制的shard,retry_failed失败。下午超出磁盘限制的shard已经被重新relocate,自然可以retry_failed。

cluster.routing.allocation.disk.watermark.high Controls the high watermark. It defaults to 90%, meaning ES will attempt to relocate shards to another node if the node disk usage rises above 90%. It can also be set to an absolute byte value (similar to the low watermark) to relocate shards once less than the configured amount of space is available on the node.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 磁盘空间引起ES集群shard unassigned的处理过程

    YG
  • ES集群状态详细信息

    YG
  • ES5.6 search流程与scroll

    YG
  • 控制MongoDB中的集合分布

    分片标记(Shard tagging)是MongoDB 2.2.0版中的一项新功能。通过对集合进行标记使其被强制写入到本地数据中心,也可以用来将某个集合固定到一...

    Sepmer Fi
  • 控制MongoDB中的集群分片

    分片标记是MongoDB 2.2.0版中的一项新功能。它应该强制写入到本地数据中心,但也可以用来将集合固定到一个分片或一组分片。

    Hero
  • ElasticSearch里面的偏好查询

    我是攻城师
  • 写给初中级前端的高级进阶指南

    我曾经一度很迷茫,在学了 Vue、React 的实战开发和应用以后,好像遇到了一些瓶颈,不知道该怎样继续深入下去。相信这也是很多一两年经验的前端工程师所遇到共同...

    ssh1995
  • web前端面试题对答篇一:谈谈你对Promise的理解

    回答这个问题时,个人不建议单纯的从Promise的细节知识点答起,因为这个问题的本质是拥有一定宏观性的,如果仅仅回复一些知识点恐怕是满足不了面试官胃口的。

    用户1272076
  • es6 Promise

    Promise 是异步编程的一种方案,简单说就是一个容器,里面保存着某个未来才会结束的事件的 结果,Promise 是一个对象,从它,可以获取异步操作的消息。 ...

    用户1197315
  • Promise的三兄弟:all(), race()以及allSettled()

    从ES6 开始,我们大都使用的是 Promise.all()和Promise.race(),Promise.allSettled() 提案已经到第4阶段,因此将...

    Fundebug

扫码关注云+社区

领取腾讯云代金券