旧事重提之CAP定理

问题之由来

我第一次听说mongodb、hbase这些分布式数据库的时候,正是我学习mysql的时候,在那个遥远的年代,mysql可是java web项目的标配,恰如今日hadoop之于大数据。高可用、弹性扩展,分布式数据库带来了种种眼花缭乱令人目眩的特性,深深吸引着当时涉世未深而又孤陋寡闻的我,然而零基础转行大数据又处处碰壁,屡战屡败之后,才有一个大数据项目组给了一个降薪的offer让去给他们做前端。

囊中羞涩前途未卜,应该接受这个降薪的offer么?几乎毫不犹豫的,我开始了flash开发之旅。

学习大数据时,CAP定理是我最早接触的概念,在一段时间里,它对我一直都是金科玉律,每看到一个系统,我都会推断它到底是AP的还是CP的,直到我最近突然想到一个问题:

一直都说zookeeper是强一致性的(实际上,zookeeper的一致性是Sequential consistency,等有机会了再讲),mongodb的replica set也可以设置为强一致性,但是它们又能通过leader选举等方法保证高可用,那么岂不是说zookeeper和mongodb完全满足了CAP的三个特性?

一时间云波诡谲扑朔迷离,于是我决定重新审视一下CAP定理。

CAP定理的来龙去脉

CAP定理(CAP theorem)既然叫做“定理”而不是公理或者猜想,那就说明它是可以被证明的。现在比较流行的说法是,Brewer最早做出了推测,而Seth Gilbert和Nancy Lynch在《Brewer’s Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web Services》中做出了证明。

zookeeper、mongodb和CAP的A

在证明里,A是被定义为every request received by a non-failing node in the system must result in a response。总体来说,定义过于简洁,理解过于多样。

  1. 比如,在mongodb里,使用它的客户端以后,所有的写请求都发给了primary,但是假如我能把一个写请求直接发给secondary,它会怎么处理?如果secondary返回了一个错误,说“喂,我们secondary不接受写请求”,这种情况算不算它“result in a response”?
  2. 再比如,如果发生网络隔离,一台被孤立的zookeeper服务器就变成了looking状态,把一个读或者写请求发给了它,它返回一个错误,说“我已经六神无主了,你还是找别人吧”,这种情况算不算它“result in a response”?

如果这些都不算的话,那么zookeeper和mongodb replica set都不满足CAP的A,但是它们又都是高可用的,因为上述情况下,client都能正确处理,应用程序都能正常运行。

关于CAP中A的正确理解,还敬请持续关注这个问题

CAP定理的严格证明

CAP定理正确不正确呢?在我看来,从公理上来看是显而易见的,从定理上来看是暧昧不明的。 为了读懂《Brewer’s Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web Services》,我先找了Lynch阿姨的《Distributed Algorithms》看了两天,然而发现异步网络的定理1还算合理,然而推论1.1就云山雾罩,半同步网络的定理2更是不知所云。实在才疏学浅,所以这个问题也forward给其他大神了,期待更好的回答。 同时,外国几位老哥也对CAP定理的证明存在着质疑,大家有兴趣可以围观一下。 https://maniagnosis.crsr.net/2010/09/some-misconceptions-about-cap-theorem.html http://markburgess.org/blog_cap.html

参考资料

《Brewer’s Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web Services》 《Distributed Algorithms》

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券