专栏首页中间件兴趣圈Canal 如何保证数据库库事务的一致性

Canal 如何保证数据库库事务的一致性

1、环形缓存区


关系型数据库讲究的是ACID 4个特性,故引入了数据库事务的概念,一个数据库事务中的多条SQL引发的多条数据变更要么全部成功,要么全部失败,即数据的一致性,那同样在数据同步的场景,在解析一个事务的 binlog 日志时,一次数据同步应该至少以事务为单位,一个事务内的所有 Event 应该作为一个批次提交到数据消费端,让消费端有能力一次同步一个事务中的数据,而不是一条一条变更日志的处理,这样容易造成数据不一致。

环形缓存区的引用就是为了解决将一个事务的完整数据一次提交到消费端,既然是多条消息,故一定需要用到缓存,环形缓存区就在这样的背景下被引入。

在 Canal 中关于事务 Event 的环形缓存区实现类为 EventTransactionBuffer。

1.1 类图

EventTransactionBuffer 的类图如下:

根据类图我们可以到其存储结构还是比较简单的。

  • int bufferSize环形缓存区的长度,默认为 1024,该长度必须为 2 的幂次方,因为对位运算非常友好。
  • int indexMask环形缓存区下标掩码,其值为 bufferSize - 1 ,sequence * indexMask 能快速定位序号 sequence 所在环形缓存区中的具体下标。
  • CannalEntry.Entry[] entries环形缓存区数据数组,即缓存区实际存储数据的内存区域,为数组结构,长度为 bufferSize。
  • AtomicLong putSequence当前写入的序号,每调用 add 方法添加一条数据,该值增加一,可超过缓存区的实际长度。
  • AtomicLong flushSequence当前已处理的数据序号,flushSequence <= putSequence,(putSequence - flushSequence)表示未处理的数据,即缓存区累积的有效数据。
  • TransactionFlushCallback flushCallbackflush 回调函数,这个和环形缓存区本身关系不大,这个与 Canal 特定业务的,环形缓存区中收集到一个完整的事务变更日志列表后,将这部分内容传入业务回调方法,并重新利用这些缓存空间。

环形缓存区的重大要义就是循环利用。

1.2 环形缓存区存储实现

接下来我们通过其 add 方法来看一下环形缓存区的,在研究环形缓存区之前,将结合8个元素的环形缓存区进行讲解。

EventTransactionBuffer 的 add 方法代码如下:

首先根据 binlog 事件类型来决定是否调用 flush 方法,这个就是实现将一个事务的事务一起提交到消费端,回到环形缓存区的具体实现,我们重点关注 put 方法 与 flush 方法的实现。EventTransactionBuffer#put

其实现的核心步骤:

  1. 检测当前环形缓存区是否已满,如果未满,则向缓存区中添加一条数据。添加数据的具体逻辑:
    • 获取下一个写入的序号 next,等于当前已写入的序号 + 1,即 putSequence + 1。
    • 通过 next & indexMask 取得放入 CannalEntry.Entry[] entries 中的下标,与 next % bufferSize 效果等同。
  2. 如果已满,则首先将缓存区中的数据刷新,即将未处理的数据全部抽取,提交到数据消费方,然后释放缓存区,继续添加数据。

关键在于如何判断环形缓存区已满,具体算法如下:

EventTransactionBuffer#checkFreeSlotAt为了加强对这段代码的理解,我举一个示例,在一个8个元素的环形缓存区中,假设一个事务包含5条日志,首先依次写入5条日志,其环形缓存区如下:

此时 putSequence 为 4,flushSequence 为 -1 ,我们应该能发现,在第一轮时,由于 sequeue 小于 bufferSize ,如果不执行 flush 操作,连续写入 8条数据,sequence = 7 时,sequence - bufferSize > flushSequence 这个表达式都不会满足,即代表缓存区未满,但在写入第9条消息时,sequence = 8 ,此时 sequence - bufferSize > flushSequence 已满足,即缓存区已满,需要先刷新数据,然后才能再填充。

再回到本示例中,一个事务只包含5条日志,在写满 5条日志后会即调用 flush 方法,将环形缓存区中下标为 0~4 的消息传入数据消费方,在 Canal 中会将这批消息一次传入 EventSink 组件。执行完 flush 方法后,flushSequence 等于4,其环形缓存区如下图所示:

此时 putSequence = flushSequence = 4,那这个时候环形缓存区的容量是多少呢?其实就是又恢复到 bufferSize 了,那我们怎么计算环形缓存区当前已写入的消息呢?其实很简单,putSequence - flushSequence 表示已写入的元素数量。那当前剩余容量就等于 bufferSize - (putSequence - flushSequence ),即只需要 bufferSize - (putSequence - flushSequence ) > 0 就表示有剩余空闲。有了这一层思路,就能明白 checkFreeSlotAt 的算法,这也是环形缓存区的核心所在。

思考,Canal 基于环形缓存区的实现,一定能保证一个事务的所有变更日志都一次提交到 EventSink 组件吗,大家可以简单思考一下,在文末的总结部分有笔者的思考。

答案是否定的,如果一个事务包含的日志条目超过了环形缓存区的长度,为了保证数据不丢失,会首先将环形缓存区的数据全部提交,然后接收新的数据,这样一个事务中的消息会被分成多次提交到 EventSink。

本文分享自微信公众号 - 中间件兴趣圈(dingwpmz_zjj),作者:丁威

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何保证缓存与数据库的一致性

    不更新缓存的数据,而是删除缓存,然后由下个请求去去缓存,发现不存在后再读取数据库,写入缓存。因为操作简单,带来的副作用也只是一次cache miss而已,删除缓...

    用户7166745
  • 如何理解数据库事务中的一致性

    一致性概念是一个使用很广的概念,比如分布式一致性,最终一致性等。本文中的一致性专门值单机数据库事务实现中的一致性

    十毛
  • 如何保证缓存与数据库的双写一致性?

    只要用缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题

    chinotan
  • 如何保证缓存与数据库的双写一致性?

    一般来说,如果允许缓存可以稍微的跟数据库偶尔有不一致的情况,也就是说如果你的系统不是严格要求 “缓存+数据库” 必须保持一致性的话,最好不要做这个方案,即:读请...

    IT技术小咖
  • 如何保证Redis和数据库双写一致性的问题?

    项目中使用Redis,主要考虑性能和并发。如果仅仅是分布式锁这些,完全可以用中间件ZooKeeper等代替。

    Java团长
  • 如何保证缓存与数据库双写时的数据一致性?

    在做系统优化时,想到了将数据进行分级存储的思路。因为在系统中会存在一些数据,有些数据的实时性要求不高,比如一些配置信息。基本上配置了很久才会变一次。而有一些数据...

    马士兵的朋友圈
  • 如何保证缓存与数据库双写时的数据一致性?

    来源:https://www.jianshu.com/p/a8eb1412471f

    猿天地
  • 如何保证缓存与数据库双写时的数据一致性?

    在做系统优化时,想到了将数据进行分级存储的思路。因为在系统中会存在一些数据,有些数据的实时性要求不高,比如一些配置信息。基本上配置了很久才会变一次。而有一些数据...

    AlbertZhang
  • 缓存与数据库一致性保证

    本文主要讨论这么几个问题: (1)啥时候数据库和缓存中的数据会不一致 (2)不一致优化思路 (3)如何保证数据库与缓存的一致性 一、需求缘起 上一篇《缓存架构设...

    架构师之路
  • ZooKeeper是如何保证数据一致性的?

    ZooKeeper是个集群,内部有多个server,每个server都可以连接多个client,每个client都可以修改server中的数据 ZooKeep...

    dys
  • 面试高频:MySQL是如何保证主从库数据一致性的?

    大家好,我是Leo。前面文章我们介绍了WAL的安全机制。可以保证数据的安全性。通过安全性我们分析了binlog,redolog日志的写入机制。今天我们分析一下主...

    机智的程序员小熊
  • 你是如何保证 ,Redis 缓存与数据库双写一致性的?

    在做系统优化时,想到了将数据进行分级存储的思路。因为在系统中会存在一些数据,有些数据的实时性要求不高,比如一些配置信息。基本上配置了很久才会变一次。而有一些数据...

    程序员白楠楠
  • 突破Java面试(27)-如何保证缓存与数据库的数据一致性

    你只要用缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题,那么你如何解决一致性问题?

    JavaEdge
  • 服务化架构下的数据一致性如何保证

    在系统服务化的过程中,我们不得不面临的一个问题是多个子系统间业务数据的一致性如何保证,解决这个问题有多种方式。 XA 可能很多人首先会想到XA规范中定义的分布式...

    高爽
  • 灵魂拷问:缓存与数据库的双写一致性如何保证?

    分布式缓存是现在很多分布式应用中必不可少的组件,但是用到了分布式缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题,那么你如何...

    Bug开发工程师
  • 一文讲透微服务下如何保证事务的一致性

    什么是事务?回答这个问题之前,我们先来看一个经典的场景:支付宝等交易平台的转账。假设小明需要用支付宝给小红转账 100000 元,此时,小明帐号会少 10000...

    用户2781897
  • MySQL和Redis如何保证数据一致性?

    由于缓存的高并发和高性能已经在各种项目中被广泛使用,在读取缓存这方面基本都是一致的,大概都是按照下图的流程进行操作:

    PHP开发工程师
  • 面试官问:Redis的操作如何与数据库事务保持一致

    场景:如果我们在开发过程中遇到这样的一种情况,我们删除 redis中token 的同时 也需要修改数据库中 储存的 token 的状态为不可用的状态。如果这个时...

    IT大咖说
  • 数据异构的武器:BINLOG+MQ

    作者:新栋BOOK 原文:https://my.oschina.net/wangxindong/blog/1531596 摘要: 分库分表中有一个最为常见的场景...

    程序猿DD

扫码关注云+社区

领取腾讯云代金券