前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MongoDB选主问题一例

MongoDB选主问题一例

作者头像
AsiaYe
发布2021-09-03 14:46:51
1.7K1
发布2021-09-03 14:46:51
举报
文章被收录于专栏:DBA随笔

微信公众号:DBA随笔

01、问题描述

今天遇到其他团队同事问了一个MongoDB选主的问题,这里记录一下过程,希望对大家有帮助。

环境描述:

有三台服务器,IP地址分别为:

198.168.0.1

198.168.0.2

198.168.0.3

组成的副本集架构如下:

此时,同事期望加入节点4来代替节点3,加入第4个节点,加入之后,开始进行全量数据同步,架构变成下面这样:

本来这个过程,是没有什么问题的。但是此时有一个不规范的操作,就是在节点4还没有完全加入到集群的时候,对节点3进行了kill 进程的操作,结果kill掉节点3之后,节点4由于配置出错,进程也停掉了,结果导致副本集架构变成了:

很快,在这种架构下,发现primary节点很快降级成了secondary,也就是说,集群中没有primary节点了。

02、分析定位

其实这个问题还是比较好定位的,在MongoDB的选举机制中,要满足"大多数法则","大多数"的概念,不难理解。节点数、赞成票数和最高可容错节点数的关系,如下:

可以看到:

3节点情况下,要满足大多数法则,集群中需要2个可投票的节点;

4节点情况下,要满足大多数法则,集群中需要3个可投票的节点;

而上述场景中,原本集群是3副本节点,一主两从,其中1个节点出现问题,另外2个仍旧可以投票选举出来primary节点;加入1个节点之后,变成了4个节点,再想投票选举primary节点,需要3个的投票,而实际过程中,挂掉了节点3和节点4,就导致无法选举,primary节点降级成为了secondary节点。

从上述的描述中不难得出以下结论:

新节点的引入后,如果集群节点为偶数,那么这个操作并没有增加集群的容错数,相反,会导致集群的大多数法则下的票数增加,集群的稳定性降低。

具体表现在:原来3节点情况下,只要有2个存活,就能够投票选出primary;而4节点情况下,有2个存活,不能投票选举出primary

可以从上面的表格中进一步总结,得到以下结论:

如果集群的节点个数从奇数增加到偶数,则容错节点数不变,赞成票数增加;

如果集群的节点个数从偶数增加到奇数,则赞成票数不变,容错节点数增加;

因此,为了保证集群稳定性,一般需要设置MongoDB集群的个数为奇数。

03、解决问题

为了更好理解,这里把MongoDB副本集的架构图搬下来:

在这个MongoDB案例中,由于我们的节点3和节点4都是进程挂掉,而配置还保留在集群中,所以无法选举primary。而解决集群中无法选举出primary节点的问题,可以使用下面的方法:

1、将节点一快速使用单机模式启动,单机模式启动,然后再补充其他的节点。可以查看MongoDB官网的这个文章:

https://docs.mongodb.com/manual/tutorial/perform-maintence-on-replica-set-members/#restart-the-secondary-as-a-standalone-on-a-different-port

2、将配置中的节点3或者节点4,删除掉一个,恢复成3节点的配置,让MongoDB自动选主。

如果你直接使用rs.remove命令,会得到如下结果:

代码语言:javascript
复制
SECONDARY> rs.remove("192.168.1.4:10489")
{
        "ok" : 0,
        "errmsg" : "replSetReconfig should only be run on PRIMARY, but my state is SECONDARY; use the \"force\" argument to override",
        "code" : 10107
}

显然,无法在secondary上执行这个命令,提示让我们使用force命令,那么这种情况下,如何使用force命令来清理配置呢?正确的姿势如下:

代码语言:javascript
复制
SECONDARY> cfg=rs.conf()
SECONDARY> cfg.members.splice(2,1)  # 从下标2的节点开始,删除1个节点配置
SECONDARY> rs.reconfig(cfg,{force:true})

更多详细内容,可参考官方文档:

https://docs.mongodb.com/manual/tutorial/remove-replica-set-member/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DBA随笔 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01、问题描述
  • 02、分析定位
  • 03、解决问题
相关产品与服务
云数据库 MongoDB
腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档