当 TiDB 遇上 Jepsen

author : 徐鹏

本篇文章主要介绍 TiDB 是如何使用分布式一致性验证框架 Jepsen 进行一致性验证的。

什么是 Jepsen

Jepsen 是由 Kyle Kingsbury 采用函数式编程语言 Clojure 编写的验证分布式系统一致性的测试框架,作者使用它对许多著名的分布式系统(etcd, cockroachdb...)进行了“攻击”(一致性验证),并且帮助其中的部分系统找到了 bug。这里一系列的博客展示了作者的验证过程以及对于一致性验证的许多思考。

Jepsen 如何工作

Jepsen 验证系统由 6 个节点组成,一个控制节点(control node),五个被控制节点(默认为 n1, n2, n3, n4, n5),控制节点将所有指令发送到某些或全部被控制节点,这些指令包括底层的 shell 命令到上层的 SQL 语句等等。Jepsen 提供了几个核心 API 用于验证分布式系统:

  • DB DB 封装了所验证的分布式系统下载、部署、启动和关闭命令,核心函数由 setup 和 teardown 组成,在 TiDB 的 Jepsen 测试中,setup 负责下载 TiDB 并且依次启动 Placement Driver、TiKV 和 TiDB;teardown 负责关闭整个 TiDB 系统并且删除日志。
  • Client Client 封装了每一个测试所需要提供的客户,每个 client 提供两个接口:setup 和 invoke,setup 负责对 TiDB 进行连接,而 invoke 则包含了测试中 client 对 TiDB 调用的 sql 语句,具体语句依测试而定。
  • Checker Checker 用于对测试生成的历史进行验证,判断测试结果是否符合预期,历史的格式如下图所示:
  • Nemesis Nemesis 用于对系统引入故障,比如常见的网络分区、网络延时、节点宕机,在 TiDB 的测试中,有以下几种 nemesis: parts:网络分区 majority-ring:每个节点都看到不同的 majority start-stop:对某些节点进行 SIGSTOP start-kill:对某些节点进行 SIGKILL 下图展示了 parts nemesis 引入测试中后某些语句执行时出现了 time-out 的错误。
  • Generator Generator 是 Jepsen 中的事件发生器,它将 Client 和 Nemesis 的操作交织在一起,为整个测试生成具体的执行语句。

TiDB 中的 Jepsen 测试

TiDB 中的 Jepsen 测试有 3 个,分别是 bank、set 和 register 测试。

Bank Test

银行测试用于验证快照隔离。这个测试模拟了一个银行系统中的各种转账,每个银行系统的初始可以是这样的:

[1 10]
[2 10]
[3 10]
[4 10]
[5 10]

1-5 分别代表账户名称,而 10 代表账户余额。测试会随机生成转账信息:

[1 2 5]

代表将金额 5 从账户 1 转入账户 2 这个操作。与此同时,测试会随机读取所有账户的存款信息,例如某一时刻账户的存款信息可能是这样的:

[8 14 2 11 15]

下面是测试进行中的某次截图:

在快照隔离下,所有的转账都必须保证每一时刻所有账户的总金额是相同的。TiDB 在即使引入了各种 nemesis 的情况下仍旧顺利地通过了测试。

Set Test

这个测试从不同节点并发的将不同的数插入一张表中,并且进行一次最终的表读取操作,用于验证所有返回成功的插入值一定会出现在表中,然后所有返回失败的插入值一定不在表中,同时,因为 nemesis 的引入,对于那些返回 time-out 的插入值,它们可能出现也可能不会出现在表中,这属于正常情况。

下面是测试进行中的某次截图:

同样,TiDB 通过了测试。

Register Test

这个测试很好理解,建一个表,然后插入一条值,然后我们把这个值看做是一个寄存器,然后在测试中并发地从各个节点对其进行 read、write 和 cas 操作。

然后利用 Jepsen 产生的一系列操作历史(如上图)进行 Linearizability 一致性验证。这个算法是 Jepsen 的核心,也是 Jepsen 被业界所熟知的原因之一,所以花时间去深入学习了下,我会在另一篇文章具体介绍这个算法。

写在最后

每次 TiDB 更新代码,我们都会内部触发 CI 来执行 Jepsen,通过 Jepsen 来保证 TiDB 的数据一致性。如果你对分布式测试,一致性验证感兴趣,欢迎参与开发。

TiDB Jepsen:https://github.com/pingcap/jepsen/tree/master/tidb

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏石仕海的专栏

三种 PHP 运行环境的性能对比

本文分析了nginx+swoole、nginx+php-fpm和apache+mod_php的工作原理,并对三种php运行环境做了对比测试。

1.8K2
来自专栏技术小讲堂

探寻ASP.NET MVC鲜为人知的奥秘(2):与Entity Framework配合,让异步贯穿始终

Why 在应用程序,尤其是互联网应用程序中,性能一直是很多大型网站的困扰,由于Web2.0时代的到来,人们更多的把应用程序从C/S结构迁移到B/S结构,这样会带...

2937
来自专栏张戈的专栏

解决wp-super-cache无法(预)缓存问题

突然发现 WP-SUPER-CACHE 无法预缓存,点击【立即加载预缓存】后没有任何效果,并且垃圾回收定时器也失效了,缓存文件全是几天前的,感觉很奇怪! 闲下来...

3215
来自专栏linux驱动个人学习

systemd的作用

早上群上讨论了一下systemd的作用,还导致了一个人的直接退群,出于求知心理,搜索了一些systemd,对此也作出了一些相应的整理; 一、systemd的诞生...

3647
来自专栏Bug生活2048

微信小程序版博客——图片相关处理

前面提到,小程序服务端的数据是基于Ghost的公共API的,在设计首页文章列表时,为了美观加上了头图,但是服务端没有提供对应的字段(头图url)。

572
来自专栏月色的自留地

在龙芯小本上安装Debain8.10

1616
来自专栏张戈的专栏

Linux中的完美截图工具:Deepin-ScreenShot

 跟了我 5 年多的本本已步入花甲,CPU 严重老化,运行 Windows 异常吃力,于是考虑换成 Linux 试试。忙活了一天,测试了 2 个“家用”Linu...

3805
来自专栏云计算教程系列

如何在Ubuntu上使用Firefox,Siege和Sproxy对网站进行基准测试

Siege是一种可配置的基准测试和测试工具,适用于通过发出网页请求来测试Web服务器的网站。Siege请求的每秒页数可以设置为从每秒几页到网站可以处理的最大数量...

852
来自专栏运维技术迷

Debian8配置SSH允许root登陆

Debian默认是不允许root用户ssh登录的,今天新装了一个Debian8发现ssh无论如何无法使用root登陆,新建一个普通用户可以,百度了好多资料发现...

3524
来自专栏华仔的技术笔记

IPFS的配置安装

4247

扫码关注云+社区