专栏首页中间件兴趣圈Canal binlog 日志管理器与GTID简介

Canal binlog 日志管理器与GTID简介

正如上文提到的那样,在 Canal Instance 启动的时候,首先会查询日志管理器中查找上一次的同步位点,如果没有查询到,则默认会从最新的位点开始同步,但如果每一次启动 Instance 都从最后开始同步,其数据完整性无法保证,正确的做法是在数据同步的过程中应该记录位点并持久化,重新启动后按照继续从上一次的位置继续同步,实现真正的增量同步。

本文就是来详细探讨 Canal 的几个日志管理器,并来探究一下 MySQL 的 GTID 机制。

1、Canal 位点管理(日志管理器)

1.1 类图

整个日志管理器由接口 CanalLogPositionManager 定义,主要定义两个方法:

  • LogPosition getLatestIndexBy(String destination) 根据 destination 获取同步位点,即在 Canal Instance 中同步进度是以源实例为最小维度的。
  • void persistLogPosition(String destination, LogPosition logPosition) 持久化同步位点。

Canal 中提供了7种位点管理机制,分别如下:

  • MemoryLogPositionManager 同步位点存储在内存中,即存放在 Map 中,通常用于测试或结合其他位点管理,用来提高性能。
  • ZooKeeperLogPositionManager 同步位点存储在 zookeeper 中,是主流的分布式存储方案。
  • MetaLogPositionManager Canal 中的元数据存储方式,即位点信息与元数据存放在一起。
  • MixedLogPositionManager 混合日志位点管理器,主要是内存与 Zookeeper 的混合方式,在存储位点时先存入内存,然后用线程池异步存储到 zookeeper 中。
  • FileMixedLogPositionManager 基于内存与本地文件的混合日志管理器,存储位点时首先存入内存,然后定时同步到文件中。
  • PeriodMixedLogPositionManager 带定时功能的基于内存与 zookeeper 的混合日志管理器,存储位点时先写入内存,然后定时同步到 zookeeper。
  • FailbackLogPositionManager 带 failback 机制的日志位点管理器,即可以创建准备两种日志管理器,例如在构建时可以将 ZooKeeperLogPositionManager 当为主管理器,基于 FileMixedLogPositionManager 当备用日志位点管理器,在写入日志位点时,尝试写入主日志管理器,如果抛出异常,则使用备用日志管理器;查询位点时先查主日志管理器,如果未查到,则查备用日志管理器。

1.2 日志管理器使用方法

由于 Canal 日志管理器的实现比较简单,这里就不一一去看源码了,那这里就重点介绍一下其使用方法。

CanalInstanceWithManager#initLogPositionManager从这里可以看到,Canal 提供了 indexMode 属性来指定使用哪种日志管理器,其可选项:

  • MEMORY 内存
  • ZOOKEEPER 基于zookeeper,使用该模式还需要通过 zkClusters 设置 zk 集群的地址。
  • MIXED 混合模式,基于内存+Zookeeper + Period,即定时存储到 zookeeper 中,使用的实现类为MixedLogPositionManager,默认为每隔1s持久化一次。
  • META 基于元数据的管理模式。
  • MEMORY_META_FAILBACK 基于内存与元数据的fallback,其中主日志管理器为 MEMORY。

在生产环境,通常建议使用 MIXED,基于内存与Zookeeper的混合模式。

2、MySQL GTID 扫盲

在 MySQL5.6.x 中引入了 GTID 机制,用于优化主从同步机制,本文不打算详细介绍 GTID 的方方面面,只是初步认识 GTID,方面在后续实现数据同步方面思考数据一致性如何保证等方案时具备必要的基础。

首先我们可以通过如下命令查看与gtid相关的属性。

在这里插入图片描述主要的变量的含义如下:

  • gtid_executed 当前MySQL实现已经执行过的事务。在开启GTID模块时每执行一个事务会产生一个全局唯一的事务ID。在每一台MySQL实例上执行的事务何止上亿,这个字段要存储所有已执行的的事务ID,怎么存储能节省空间就是一个需要解决的问题,稍后再进行展开说明。
  • gtid_executed_compression_period 在MySQL5.7版本专门引入了一个系统表:mysql.gtid_executed,gtid_executed_compression_period 参数就是设置每执行多个事务,对这个表进行压缩,默认值为1000。
  • gtid_mode 是否开启gtid模式。
  • gtid_purged 已不在 binlog 日志中的事务ID,Mysql 并不会永久存储 binlog 日志,而是通过 expire_logs_days 设置过期时间,单位为天,默认为10天。

一个GTID由两部分组成:server id uuid 与递增序号,两者之间用英文冒号隔开,例如上图中的:1f0eee4c-a66e-11ea-8999-00dbdfe417b8:1。

再来回到 gtid_executed 的存储问题上,为了减少存储空间,连续的gtid可以用进行合并,例如 1f0eee4c-a66e-11ea-8999-00dbdfe417b8:1-10,表示连续代表1-10个事务。

GTID的生成有自动递增与手动执行模式,自动递增模式可以在单个Server集群中保证有序,即GTID值越大,说明事务越后执行,但如果进行了人工干预,GTID就不是越大越先执行了,举例如下:

通过如下命令手动指定gtid:

set gtid_next='1f0eee4c-a66e-11ea-8999-00dbdfe417b8:10';
begin;
commit;
set gtid_next='AUTOMATIC';

故这里产生了另外一个事件,其gtid 为 10,下一条语句产生的GTID会是 11 还是 4 呢?

从这里看成,会先使用空洞,其binlog记录如下。

从这里看出,在后续避免数据顺序性方面,使用GTID并不是一个十全的方法,基于binlog的写入时间更为靠谱。

本文分享自微信公众号 - 中间件兴趣圈(dingwpmz_zjj),作者:丁威

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 探究 Canal EventParser 的设计与实现奥妙

    首先我们先从官方文档来看 EventParser 的整体设计,其架构设计图如下所示:

    丁威
  • 【Canal】数据同步的终极解决方案,阿里巴巴开源的Canal框架当之无愧!!

    作者个人研发的在高并发场景下,提供的简单、稳定、可扩展的延迟消息队列框架,具有精准的定时任务和延迟队列处理功能。自开源半年多以来,已成功为十几家中小型企业提供了...

    冰河
  • Canal 初次启动时如何定位同步位点(文末附流程图)

    本文将详细剖析Canal在初次启动时如何定位同步位点,行为思路先源码,再辅以流程图进行说明,并在总结部分使用思维导图进行总结,试图引发各位的讨论。

    丁威
  • canal源码解析(2)—位点的实现

    首先说一下我对canal中位点的理解。什么是位点?位点是 binlog事件在binlog文件中的位置。但是对于canal而言,canal server发送dum...

    Monica2333
  • MySQL如何实时同步数据到ES?试试这款阿里开源的神器!

    canal主要用途是对MySQL数据库增量日志进行解析,提供增量数据的订阅和消费,简单说就是可以对MySQL的增量数据进行实时同步,支持同步到MySQL、Ela...

    用户4172423
  • 可视化数据同步迁移工具 CloudCanal

    CloudCanal 是一款数据迁移同步工具,提供友好的可视化操作界面,支持多种数据源间的数据迁移、数据同步、结构迁移、数据校验。

    Se7en258
  • 监听MySQL的binlog日志工具:Canal、Maxwell、mysql_streamer对比

    之前通过文章介绍过canal,本篇文章主要简述一下Canal、Maxwell、mysql_streamer对比。

    大数据学习与分享
  • MySQL Binlog 解析工具 Maxwell 详解

    Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、R...

    小旋锋
  • 如何使用Canal同步MySQL的Binlog到Kafka

    Canal是阿里开源的增量解析MySQL binlog组件。通过将binlog投递到kafka,一方面可以直接进行指标计算。另一方面,可以减轻夜间离线数仓数据同...

    Eights
  • Oh! Binlog还能这样用之Canal篇

    •当你使用了redis或者其他中间件做缓存的时候,经常发现缓存和数据库的数据不一致,只能通过定时任务或者缓存过期的方式去做一些限制。•当你使用了ES做搜索工具,...

    用户5397975
  • Maxwell 系列(一)

    maxwell读取MySQL二进制日志并以JSON格式将行更新写入到Kafka,Kinesis或其他流媒体平台。Maxwell的操作开销很低,只需要my...

    大数据最后一公里
  • 通过Maxwell解析MySQL Binlog,打好业务多活的基础

    在Binlog解析方向和数据流转方向上,经常会提到比较有名的几类工具,阿里的Canal,Zendesk的Maxwell和Yelp的mysql_streamer,...

    jeanron100
  • Canal Admin 高可用集群使用教程

    Canal 1.1.4 版本引入了 Canal Admin,提供了统一管理 Canal Server 的 WebUI 界面。Canal Admin 的核心概念主...

    Se7en258
  • 一文详解 Canal Instance 设计理念与定制开发思路

    从 Canal 系列的第一篇文章我们基本能了解到,Instance 是 Canal 数据同步的核心,在一个 Canal 实例中只有启动 Instace,才能实现...

    丁威
  • 异地多活场景下的数据同步之道

    在当今互联网行业,大多数人互联网从业者对"单元化"、"异地多活"这些词汇已经耳熟能详。而数据同步是异地多活的基础,所有具备数据存储能力的组件如:数据库、缓存、M...

    jeanron100
  • 超详细canal入门,看这篇就够了

    我们都知道一个系统最重要的是数据,数据是保存在数据库里。但是很多时候不单止要保存在数据库中,还要同步保存到Elastic Search、HBase、Redis等...

    java技术爱好者
  • MySQL复制(二) - 详聊binlog日志

    ​有了binlog日志,我们可以实现主从架构,可以用canal、maxwell等工具实现将MySQL数据同步到大数据环境;同时可以对binlog进行解析,可以实...

    懒熊
  • Canal的基本介绍及原理

    1.所有的save、update、delete操作,都会进入主Mysql服务器,也就是Master节点 2.Master节点会生成一个BinLog二进制文件,...

    黎明大大
  • 基于Canal与Flink实现数据实时增量同步(一)

    canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。

    Spark学习技巧

扫码关注云+社区

领取腾讯云代金券