大数据时代的NoSQL

NoSQL这个词语伴随着云计算和大数据的出现也有一些时日,对于NoSQL和SQL的区别到底是什么,NoSQL自己又是什么,往往很多人还有一些困惑。这篇文章主要阐述一下这些基本概念,做个简单的介绍。

SQL是国际标准化了的数据库的查询语言,由IBM发明,被Oracle抄袭,之后广泛被各大厂商支持。其最著名的SELECT FROM WHERE GROUP BY基本上就是路人皆知了。SQL有很多的标准,从当前环境来看,最重要的应该是SQL1998,基本上现在任何一个新的startup要想写个database,SQL1998的支持是必要的,不然差评,没人买。

从狭义上讲,NoSQL指key-value store。SQL实际上指relational database。两者在概念上最大的区别是对consistency的处理。SQL有著名的ACID原则,对consistency来说是strong consistency,而NoSQL一般讲究eventual consistency,并不保证在任何的有限时间内读写会consistent。NoSQL也有所谓的BASE原则。这两者的理论基础是著名的CAP理论。要解释清楚这些概念本身可能需要一长篇文章,所以我打算另外在撰文。在这里把这些东西先列一下。

著名的key-value store很多,然而大体上的套路要么遵循了BigTable,要么遵循了Dynamo。对一个key-value store来说要解决的两个核心问题是

  1. 如何partition data
  2. 每个partition的data是怎么存的

前者一般用hash partition或者range partition。后者一般存成某种tree的结构或者某种hash-table。另外一般还要带上bloom filter来加速查询。

广义上来讲,现在人们把document db和graph db也算作NoSQL。简而言之,这种数据库存的是JSON blob。最为著名的两个是MongoDB和CouchDB。这些数据库一般来说都是只支持Restful API,通过HTTP来读取。每条record是个JSON blob,里面存了所有相关的数据。Schema是self-define的。这类数据库都要求每条record有一个unique key,这样才能够通过key去查询。我道听途书的一个比较有意思的传闻是Uber内部的存储系统。他们用了MySQL做了一个类似document db的东西,一张表里面有key有value, value就是一个JSON blob。当然这类数据库一般都有indexing。

GraphDB存的是图,基本上比如说社交图啊。这不是我最熟悉的领域,我也只是读过一些paper并无实际工作经验。一般来说,这种数据库其实更像一个search engine,一般来说这种系统会有三层:底层的分布式存储系统,中间层是对图数据库的管理和查询,最上层则是对图处理的API蹭。目前比较知名的是Twitter的FlockDB和facebook的TAO。有兴趣的可以仔细研读一下TAO的基本构架。

原文发布于微信公众号 - 飞总聊IT(feiitworld)

原文发表时间:2016-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨建荣的学习笔记

使用shell脚本抽取MySQL表属性信息

在最近抽取了数据库层级的信息之后,我们可以基于已有的数据做一些分析,比如那些业务属于僵尸业务,可以通过分析binlog的偏移量来得到一个初版的信息,如果在一个周...

1123
来自专栏数据库新发现

数据库性能和数据库安全:面试题上以小见大

友情链接:http://enmotech.com/web/classify/43.html

960
来自专栏沈唁志

2018年韩创科技旗下我图网PHP工程师面试题分享

4. 一张采用Innodb的User表,其中id为主键,name为普通索引,试从索引的数据结构角度分析,以下两条语句(均返回一条记录)在检索过程中有哪些区别

1532
来自专栏PHP在线

8 个不得不说的 MySQL 陷阱

Mysql安装简单,速度较快,功能丰富。另外它还是开源运动的标杆,它的伟大成就向我们展示了一个成功的公司是可以建立在开源代码之上的。 然而用过mysql的人都曾...

3745
来自专栏学习有记

你对数据库管理员的定义是什么?

1184
来自专栏性能与架构

建立索引后的代价到底有多大?

前几天写的文章“MySQL 性能优化案例:覆盖索引”,介绍了使用覆盖索引优化查询的方式,受到了一个网友的批评 批评的内容为: “直接从索引放回数据很快是个常...

3667
来自专栏带你撸出一手好代码

到底该不该使用存储过程

看到《阿里巴巴java编码规范》有这样一条 ? 关于这条规范,我说说我个人的看法 我觉得用不用存储过程要视所使用的数据库和业务场景而定的,不能因为阿里巴巴的技术...

4309
来自专栏黑泽君的专栏

MySQL各版本的区别

MySQL 的官网下载地址:https://www.mysql.com/downloads/

2.4K2
来自专栏数据的力量

大索引技术,大数据的未来

不管你信也好,不信也好,大数据时代真的来临了,随着Hadoop技术的普及,其生态圈发展的越来越壮大,Hive、Hbase、Spark、Storm等的一系列新名词...

1243
来自专栏杨建荣的学习笔记

自动化平台开发小结(四)

今天对备份恢复和元数据的功能点进行了改进,突然发现需要做的事情远比想象的要多。 技术方面,目前Django的框架使用开始有一些需求的瓶颈了,因为有些需求从业务的...

3785

扫码关注云+社区

领取腾讯云代金券