我们开发人员在进行并发编程时,总是会面临并发带来的安全性和一致性的挑战,为了解决这一问题,我们通常会采用同步机制和锁机制,例如Java中的synchronized关键字和Lock接口。
MySQL同样需要解决并发事务带来的复杂问题,上文简单介绍了MySQL通过事务隔离机制可以解决并发问题,本文将结合案例进行深入剖析,以便掌握其原理并学习其思想。
如果读过之前的文章就会知道,每行数据的读写都是基于数据页操作的。那么在此基础上,并发事务可能存在以下几种情况:
如果没有并发控制的情况下,单纯的读操作是不会对数据造成什么影响。
但是,一旦涉及到写操作,情况就会变得很复杂:
如果此时有一个事务对某行数据进行写操作,其他事务能否对该行数据进行读取?
这个问题有以下几个情形:
到这里应该就看明白了。结合事务隔离级别,看一下MySQL是怎么处理的:
第一个情形不就是“读未提交”的“脏读”,一致性保证不了一点。
第二个情形就是“串行化”,完全通过锁来处理并发事务。
使用锁意味着需要竞争,而竞争失败就需要等待,等待就意味着消耗时间,消耗时间就意味着会影响整体并发处理能力。
对于MySQL这样的数据库,性能的高低会直接影响用户的去留,所以,仅仅是“串行化”的并发处理是远远不够的。
为了兼顾并发事务的一致性和性能问题(也就是第三个情形),就诞生MVCC,也是隔离级别“读已提交”和“可重复读”所运用到的技术。
MVCC 全称 Multi-Version Concurrency Control(多版本并发控制),在数据库管理系统中通过保存数据的多个版本来避免读写冲突,从而提高并发处理能力。
这里关注两个关键字:多版本、读写冲突。
结合上面的并发事务情况分析:
所以只能在并发读/写这里进行优化,所谓的避免读写冲突。
接下来就来看一下MVCC是如何在写事务处理的同时,保证读事务不需要排队等待就能获取到数据最新状态的。
在《MySQL是如何保证数据不丢失的》,每个DML操作在更新数据页之前,InnoDB会先将数据当前的状态记录在「Undo Log」中。
既然这样,读事务直接读取这里的数据不就好了?
没错,MVCC就是这么处理的。
写事务在处理过程中,读事务既不需要排队等待,又能读取到除当前写事务之外最新的数据状态,也避免了因写事务的回滚而造成的“脏读”问题。如下图。
在并发事务中如果有多个写事务,那么Undo Log是这样的:
图中的「事务ID」和「回滚指针」是行数据中包含的「隐藏字段」,在 Undo Log 中通过回滚指针进行串联的数据就是指MVCC的「多版本」。
(这里说明下,同时执行DML操作时还是会使用锁来控制的,不会减少对锁的竞争。所以图中有个先后顺序。)
那么读事务应该以哪个版本的数据为准?
针对这个问题,MVCC通过Read View机制来处理。
Read View是什么?
Read View是事务进行读操作时生成的一个读视图,记录当前活跃事务的ID,分别是:
通过Read View可以判断在当前事务能看到哪个版本的数据。
判断逻辑是这样的:
(这里说明下,事务ID是递增的)。
接下来,通过一张图具体看一下Read View怎么判断的。
图中有4个并发事务,并且在同一时刻开启了事务。
各位可以按照这个逻辑,自行设置场景进行代入验证。
基于上述,有以下总结:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。