前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于MySQL复制的业务需求分析和改进

基于MySQL复制的业务需求分析和改进

作者头像
jeanron100
发布2021-11-09 15:14:02
4520
发布2021-11-09 15:14:02
举报
文章被收录于专栏:杨建荣的学习笔记

今天和同事聊起了一个问题,主要背景是有2个数据库需要数据流转至数仓系统,虽然数据库的存储容量很大,但是需要流转的数据量不大,举个例子,比如源数据库有100张表占用800G,但是数据流转只需要10张表,占用30G, 所以在构建数据源集市的时候,我们就选择了多源复制的模式,把两个数据库合在一起对外交付,本质上还是基于主从复制的模式,只是更加灵活而已。

近期有个新需求,打破了这种平静,现在需要新增几张数据表流转至数仓系统,尴尬的是这几张表因为历史原因没有分表,单表的数据量在几亿,如果采用逻辑导出导入的方式,需要差不多5个小时左右,而且最关键的是,还带来了一系列问题:

1)这种数据导出导入的模式,数据导入完成后的数据补齐工作很难,因为数据是从主库复制,所以这个中间节点上面始终是一种动态的数据处理过程,从理论上来说,是没有办法追齐数据的

2)数据复制基于GTID,什么时候该做取舍也是个难题,比如其他的10张表在实时复制,而新增的表会产生新的GTID,在数据没有应用过来之前,会有一系列的GTID无法自动修复。

如果把这个图画的更全面一些,其实是这样的结构,默认是有数据的容灾节点的,中间节点是直接从主库进行数据复制的。

要解决现在的这个问题,导出导入5个小时显然是不合理的,而相对来说理想的方式便是基于物理数据的处理模式。

一种是传输表空间,直接把ibd文件拷贝到中间节点,然后修复数据的差异,这个时候有两种修复差值的模式,一种是基于表中的增量时间来处理,相对不够通用,第二种则是更严谨的模式,则是修改数据的复制链路,基于从库级联复制即可。

这里的关键便是在开启传输表空间前就停止slave复制,让整个系统处于静止状态,这样能够保证数据的完整性,这个过程如果是复制ibd文件,30G左右的文件大概30分钟就能搞定。

复制完成后,可以根据需求是继续保留基于从库复制还是重新调整GTID绑定到主库端去。

最终的变更状态和原来基本保持一致。

第二种处理模式简单直接,即需要寻找数据问题的根因,比如源库有100张表占用800G,但是需要流转10张表占用30G,那么我们是不是可以直接基于数据库级,实例级进行数据复制,等数据复制状态正常后我们把那90张表都清理掉,在处理过程中,对于一些可能出现的复制异常编码进行统一的过滤处理。这样我们的数据始终是实时更新的状态,无论是状态性数据实时更新还是日志型数据实时更新都可以灵活的适配。

同时在这个时候我们对于多源复制也可以做一些取舍,在这种场景下我觉得使用的意义就不是很大了。

综上,数据复制是一个很好的数据开关,能够灵活的适配和处理很多偏向于业务需求的数据逻辑,在这个过程中,基于系统层,物理的处理模式要远比逻辑处理要高效的多。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 杨建荣的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档