恒丰银行 I MySQL MGR与Galera性能测试买家秀

作者介绍:

赵守斌,十年银行业数据库管理经验,熟悉各种Oracle数据库系统方案,对MySQL开源数据库也有涉猎。目前牵头负责恒丰银行数据库管理和各类数据库服务化平台建设。

背景

Background

很多关注数据库技术的IT人士可能记不住去年双十二都剁手买了什么东西,但是一定会有人对当时一篇“Galera将死——MySQL Group Replication正式发布”的文章还有印象。

长期以来MySQL官方都缺少原生的MySQL集群多活方案,所以也给第三方公司提供了发展的机会。Galera就是其中的一个典型,两种基于Galera的方案MariaDB Galera Cluster 和Percona XtraDB Cluster发展已有几年的历史,而且已经有不少业界使用经验,比如去哪儿网就使用了较多的Percona XtraDB Cluster(PXC)

2016年12月12日ORACLE发布了MySQL Group Replication的首个GA版本,并且提供了自家对比Galera的性能测试,当然是各方面秒杀Galera。

原文链接:

http://mysqlhighavailability.com/performance-evaluation-mysql-5-7-group-replication/?spm=5176.100239.blogcont66550.17.T4N8cZ

简单来说OLTP场景下,MGR大概性能是Galera的两倍。也就是这篇激动人心的原生的、性能更先进的MySQL集群产品的发布才有了去年双十二期间“Galera将死——MySQL Group Replication正式发布”的火爆。

作为发展历史更悠久的Galera当然也不会坐以待毙,时隔四个月之后,2017年4月份Percona发布了Percona XtraDB Cluster 5.7.17-29.20版本,性能得到极大提高,并且Percona公司也发布了自家对比MGR的性能对比测试。

原文地址:

https://www.percona.com/blog/2017/04/19/performance-improvements-percona-xtradb-cluster-5-7-17/

原文较长,简单来说在提高wsrep_slave_threads并发复制线程数等综合优化之后,PXC的性能像开挂一般提升,Percona自己对比5.7.17和上一个版本5.7.16之间的性能,OLTP综合场景下大概提升有3倍多,可见的确称得上大杀器:

测试

Test

以上两家公司各自测试,都宣称自己的产品性能优于对方,那么作为客户应该相信哪一家呢?

我们使用同样的硬件环境,独立测试了两家产品。

测试方案

版本

测试环境

MySQL异步复制

5.7.19

二路X86服务器,256G内存,SSD硬盘,万兆网

MySQL半同步复制

5.7.19

MySQL Group Replication

5.7.19

Percona XtraDB Cluster

5.7.18-29.20

测试过程使用标准的sysbench 0.5版本的OLTP场景,数据库准备了100张400w的表,压测并发线程120,MySQL的公共参数基本参考Percona的测试(他们家公布了所有案例和参数文件,可供用户自行测试)压测命令参考如下:

经过多轮30分钟的长时间压测,取sysbench自动统计的压测结果

对比结果:

(1) 相同测试环境下,MySQL Group Replication与Percona XtraDB Cluster性能基本差不多,相当于单机性能的60%。

方案

TPS

平均响应时间

TPS同比单机

响应时间同比单机

MySQL单主库

10260

11.69

MySQL异步复制

10385

11.55

101.22%

98.80%

MySQL半同步复制

8741

13.73

85.19%

117.45%

MySQL MGR

6066

19.78

59.12%

169.20%

percona PXC

5884

20.39

57.35%

174.42%

(2)增加网络0.6ms的延迟对半同步复制影响较大(TPS下降约一半,平均交易响应时间翻倍),对MySQL Group Replication与PerconaXtraDB Cluster基本没有影响(TPS和平均交易响应时间均变化不大),意味着如果同城两个数据中心网络条件好,那么具备同城跨机房部署集群的条件。

(3)PXC的稳定性要好于MGR,TPS比较稳定,不像MGR毛刺比较严重:

(4)测试发现性能瓶颈点

对于PXC来说,测试发现wsrep_slave_threads对TPS影响较大(详见下表),官方也建议可以适当调大此参数,但是要注意对CPU使用率的影响。综合本场景最终选择设置为20进行压测。

压测机器

wsrep_slave_threads

tps

平均响应时间

机器1

48

5990

20

32

6003

19.99

16

4858

24.69

8

2959

40

1

616

194

机器2

48

5900

20

20

5821

20

16

5174

23

对于MGR来说,发现flow_control对TPS影响较大。默认值25000测试TPS只有1125,调大十倍到250000后TPS能达到近6000。

(4)功能性对比

本文主要目的是为了性能压测,但是在压测过程中也顺便体验了两种产品的功能,受限于使用经验不够丰富,简单总结如下:

MySQL MGR

percona PXC

安装

插件式安装,比较简单

提供打包的rpm包,安装略复杂

成熟度

发布仅一年,无客户使用

发布五年多,经历MySQL5.5/5.6/5.7三个版本;有较多客户使用,如国内去哪儿网

性能

实际测试性能相差不大只有3%;大多数同步的方式,性能短板不明显

实际测试性能相差不大只有3%;由于数据在所有节点强同步所以性能由最差节点决定

功能性对比

安装简单,但是使用较难,配套工具不够成熟(如集群扩展多节点需要用户自行备份恢复数据库)对大事物支持欠缺(如单笔交易插入100万条记录),集群容错性不够好(复制冲突时集群会分裂)

集群添加节点自动扩展,集成自家Xtrabackup工具,无需用户自行备份恢复数据,提供配套的监控工具,支持大事物(一次性插入1000万条记录),自身具备冲突检测解决方案

高可用特性

基于Paxos协议,数据在大多数节点同步;具备多主写入功能,但是不推荐使用

GaleraReplication是一种certiticationbased replication保证集群所有节点强同步;也具备多主写入功能,但是也需要注意减少冲突

结论

Conclusion

MySQL MGR作为官方力推的明星产品,的确具备了与市场老牌产品如PXC竞争的资格,但是现在就谈Galera将死还言之过早,在功能完善性方面还比不上成熟的PXC。期待两家产品继续PK竞争,从而推出更加稳定、高效的集群解决方案。

参考

Reference

公用的主要参数:

PXC的特殊参数:

测试过程中发现wsrep_slave_threads默认设置8严重限制TPS,所以调大到20

MGR的特殊参数:

测试过程中发现默认flow_control设置25000太小,严重限制了TPS,所以调大到250000

SET GLOBALgroup_replication_flow_control_certifier_threshold=250000; SET GLOBALgroup_replication_flow_control_applier_threshold=250000;

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2017-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯技术工程官方号的专栏

数据才是永恒的存在

作者介绍:2012年进入腾讯,负责腾讯云数据库平台(CDB)和腾讯云分布式存储平台(CBS)的运维工作,对数据库高可用、数据库调优、分布式存储运维等领域有丰富的...

1789
来自专栏CSDN技术头条

荔枝FM架构师刘耀华:异地多活IDC机房架构

声明:本文首发于CSDN,禁止未经许可的任何形式转载,可咨询文末的责编。 多机房架构存在的原因 ? 单机房一旦死机,断电、维护根本无法挽回整个数据,想离线读取等...

2426
来自专栏杨建荣的学习笔记

和开发讨论的一个数据变更需求(r9笔记第8天)

最近在评估一个开发同事的需求时,发现随着需求的变化,DBA相关的评估工作也会随之变化,同时反射到开发同事那边,通过这个案例也可以看到很多的需求变化,可以从中看出...

3035
来自专栏乐沙弥的世界

DBA 的那些事

      说起DBA,全称是Database Administrator,不是Doctor of Business Administration,千万不要误解...

900
来自专栏数据和云

恒丰银行 I MySQL MGR与Galera性能测试买家秀

作者介绍: 赵守斌,十年银行业数据库管理经验,熟悉各种Oracle数据库系统方案,对MySQL开源数据库也有涉猎。目前牵头负责恒丰银行数据库管理和各类数据库服务...

3646
来自专栏SDNLAB

从分层角度HACK网络

网络的可靠性、冗余性自从网络诞生以来就是一个不曾停止过讨论的话题,最近阿里云发布了云骨干网这一产品,引起了业界的广泛讨论,突然觉得在广域网领域有一些事情发生,比...

2654
来自专栏编程一生

业务高速增长场景下的稳定性建设实战

1072
来自专栏Rainbond开源「容器云平台」

微服务的误读与误解

1265
来自专栏SDNLAB

SDN实战团技术分享(三十八):DPDK助力NFV与云计算

DPDK最初动机很简单,网络处理器的软件解决方案,证明IA多核处理器能够支撑高性能数据包处理。 什么是DPDK?对于用户来说,它可能是一个出色的包数据处理性能加...

3754
来自专栏北京马哥教育

『九个月实现破亿用户的可扩展架构』学习笔记

昨晚把美拍架构负责人洪小军在Qcon上的『九个月实现破亿用户的可扩展架构』分享看了一遍(其实那场QCon我也在现场,但是当时小军这个会场实在太多人了,而且当时北...

2875

扫描关注云+社区