专栏首页爱可生开源社区第19问:MGR 架构,如果一个节点网络不稳,消息缓存会被撑满么?

第19问:MGR 架构,如果一个节点网络不稳,消息缓存会被撑满么?

问题

已知情况如下:

1. MySQL 版本为 8.0.21(随 8.0 的小版本升级,MGR 参数和行为变更频繁,需要特别注意版本号)。

2. MGR 架构,一个节点 C 网络不稳时,与其他节点的通讯断开。

3. 通讯断开后,一定时间内(5 秒 + group_replication_member_expel_timeout 秒)

  1. 其他节点开始质疑节点 C 可能掉线。在其他节点上,节点 C 的状态为 UNREACHABLE。
  2. 其他节点仍然能协商并提交新事务,其协商的信息会保存在消息缓存中。

4. 通讯恢复后,节点 C 会从其他节点的消息缓存中获取漏掉的信息,并跟上进度。

那么,消息缓存会被撑满么?撑满以后会造成什么影响?

实验

我们先建三节点的 MGR,此处忽略步骤,大家按照官方文档进行就行。

来看一下三节点的状态:

我们知道 MGR 的消息缓存大小由 group_replication_message_cache_size 参数控,我们在三个节点上都将参数设置为最小值(128M),这样比较容易撑满:

我们还需要将 group_replication_member_expel_timeout 调大,使得之后通讯故障的节点 C 不会被集群踢出。

我们需要知道消息缓存已经用了多少,可以使用下面的命令:

现在我们上一些数据库压力,让 MGR 发送消息,将缓存填满:

看一下填满后的缓存状况:

下面,我们将 mgr-3 节点的网络通讯断开:

在其他节点查询状态,可以看到故障节点被质疑,但没有踢出:

同时,我们可以看到数据库压力仍然在继续进行。

现在,在 primary 节点上,我们将内存统计表重置:

然后观察内存统计,查看缓存的释放量:

等待一段时间,可以看到缓存的释放量已经超过缓存大小,意味着整个缓存的内容已经完全换过一轮:

接下来,我们恢复故障节点的通讯。

通讯恢复后,故障节点应当从其他节点的缓存中,获取故障阶段的消息,但这些消息已经从缓存中被清掉了,我们看看故障节点的 error log:

可以看到,故障节点因为无法接上消息,报错退出集群。

而后由于 auto-rejoin 机制,故障节点尝试重新加入集群,并通过 binlog 接续数据。

一些结论

本文涉及到两个 MGR 相关的参数:

1. group_replication_member_expel_timeout

  1. 行为: 当某节点意外离线达到(5 秒 + group_replication_member_expel_timeout 秒)后,MGR 将其踢出集群。 如果节点意外离线时间较短,MGR 可以自动接续消息,仿佛节点从未离开。
  2. 优点: 网络等发生意外时,该参数越大,越不需要人工参与,集群可自动恢复。
  3. 成本: 该参数越大,就需要更多的消息缓存。
  4. 成本: 节点未被踢出集群时,可以从该节点读到过期数据。 该参数越大,读到过期数据的概率越大。

2. group_replication_message_cache_size

  1. 优点:该参数越大,可缓存的消息越多,故障节点恢复后自动接续的概率越大,不需要人工参与运维。
  2. 成本:消耗内存。

小贴士 大家在选择 MGR 参数时,建议从以下几个方向考虑,达成平衡:

  1. 对环境不稳定的容忍程度
  2. 自动化程度(是否需要人工参与)
  3. 读过期数据的概率
  4. 物理资源消耗

本文分享自微信公众号 - 爱可生开源社区(ActiontechOSS),作者:黄炎

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 第14问:在 MGR 集群里,一个节点异常退出后,会发生什么?

    在一个 MGR 集群里,一个节点异常退出后,MySQL 会如何进行调度?异常的节点什么时候会被踢出集群?

    爱可生开源社区
  • 技术分享 | MySQL 组复制数据的一致性管理解析

    来源于客户的一个问题。客户对组复制的数据一致性保障机制非常困惑,一直不太明白,其实就是对组复制参数 group_replication_consistency ...

    爱可生开源社区
  • 第02期:Prometheus 数据采集(一

    上篇文章(第01期:详解 Prometheus 专栏开篇)介绍了 Prometheus 的架构,本文开始将介绍 Prometheus 数据采集。本文首先会介绍采...

    爱可生开源社区
  • 并查集Union-find及其在最小生成树中的应用

    并查集是一种用途广泛的数据结构,能够快速地处理集合的合并和查询问题,并且实现起来非常方便,在很多场合中都有着非常巧妙的应用,。 本文首先介绍并查集的定义、原理及...

    老白
  • 深度学习word2vec笔记(算法篇)

    一. CBOW加层次的网络结构与使用说明 Word2vec总共有两种类型,每种类型有两个策略,总共4种。这里先说最常用的一种。这种的网络结构如下图。 ? 其中第...

    机器学习AI算法工程
  • 江苏省初中信息技术八年级 -张叔叔一文读懂

    今天张叔叔给大家讲讲江苏省八年级信息技术教材内容,之前的七年级教材讲解收到了热烈欢迎,在此感谢所有的读者们,也希望大家积极转载,为社会主义建设添砖加瓦!

    张叔叔讲互联网
  • 面向服务架构(SOA)和企业服务总线(ESB)

    学习和研究在企业中实施面向服务架构(SOA),简单回顾SOA和ESB,重点关注微软在SOA领域的相关指导和.NET社区的相关开源的解决方案,和大家一起来探讨如何...

    张善友
  • SOA和微服务的区别并不是size!

    Stephen O’Grady 对于那些已经在技术行业有一段时间的人来说,一般总是想要去比较甚至将当前的微服务现象等同于更古老的面向服务架构(SOA)的做法。有...

    ImportSource
  • SOA相关资料整理分享

    蘑菇先生
  • SOA体系结构之基础培训教程-大纲篇

    最近受邀做了一个企业的SOA体系结构的内训,本文是内训课程的培训大纲,分享一下吧,希望大家能够喜欢。同时也想针对大纲中列出的内容对SOA架构体系做一次回顾,如果...

    数据饕餮

扫码关注云+社区

领取腾讯云代金券