举例说明:Hadoop vs. NoSql vs. Sql vs. NewSql

尽管层次数据库如今在大型机上依然被广泛使用,但关系数据库(RDBMS)(SQL)已经占领了数据库市场,并且表现的相当优异。我们存的钱不会跑 到别人的账户,我们预定机票可以确保我们在飞机上有一个专属的座位,而且我们也不会因为没有做过的事而受到责备等等。关系数据库的数据完整性是因为它遵循 了ACID(原子性,一致性,独立性以及持久性)原则。关系数据库技术可追溯到上世纪70年代。 那么,现在有什么变化呢?Web 技术开启了这次变革。如今,许多人在亚马逊上买东西。但关系数据库并不是设计用来处理亚马逊上每秒大规模的交易的。其主要的制约因素是关系数据库的机制问题。 NoSql 数据库提供了另一种机制,但这种机制却削弱了ACID原则。一些 NoSql 供应商在解决这些问题上取得了长足的进步;他们的解决方案称作最终一致性。至于 NewSql,为什么不利用现代的编程语言和技术来新建一个没有缺点的关系数据库呢?这就是很多 NewSql 供应商起家的方法。其他的 NewSql 公司创建了增强的 MySql 解决方案。 Hadoop 是一个完全不同的物种。它实际上是一个文件系统而非数据库。Hadoop 的根是基于互联网搜索引擎的。虽然 Hadoop 和 伙伴(Hbase,Mapreduce,Hive,Pig,Zookeeper)已经使它变成一个很强大的数据库,但 Hadoop 依旧是一个可容错、可扩展、廉价的分布式文件系统。Hadoop 当下的特点在于它的批量处理适用于数据分析。 现在,我们开始举例说明:我设想,视频游戏公司在营业了十年后,最近上线了我们最火热的游戏,并把货发给世界各地的零售商。我们的客户信息目前存储 在一个 Sql Server 数据库中,我们对此一直很乐观。然而,由于玩家开始在线玩游戏,我们的数据库不能够跟上数据更新速度,导致玩家体验有延迟。随着用户群的快速增长,我们花 了大笔的钱来买更多的硬件和软件也无济于事。我们最不希望的就是损失客户。我们现在该何去何从? 我们决定分割我们的线上用户群,同时在 NoSql 和 NewSql 上运行我们的线上游戏。我们的目标就是要找到最佳的解决方案。IT 部门于是选择了 NoSql CouchBase (类似于 MongoDB 的面向文档型)和 NewSql VoltDB。 Couchbase 是开源的,它有一个集成的缓存机制,并且可以自动地在多个节点之间传播数据。VoltDB 是一个遵循 ACID 原则的关系数据库,能够容错,横向扩展,并拥有无共享 & 内存中的架构。最后,这两个系统都能够运作。我不会详述各个方案的复杂细节,因为这只是一个例子,而且实际上比较这些技术需要测试,标杆管理以及深入分 析。 既然线上操作可以顺利进行,我们想要分析我们的数据来找到我们应该开拓的市场。那么最适合推销我们的产品是哪个国家呢?为此,我们需要把 Sql Server 数据仓库的用户数据和线上游戏数据库的数据合并起来,然后运行分析报告。这就轮到 Hadoop 登场了。我们构建一个 Hadoop 系统并将这两个数据源的数据合并起来。最后,我们利用开源的 R 语言与其 MapReduce 模块连接起来,以生成分析报告。

原文发布于微信公众号 - 马哥Linux运维(magedu-Linux)

原文发表时间:2015-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏安全领域

启动物联网项目所需的一切:第 1 章

本文旨在帮助读者围绕物联网或流处理系统的技术问题,建立完整的基础和多方面的理解。

81280
来自专栏腾讯技术工程官方号的专栏

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

12510
来自专栏美团技术团队

行进中换轮胎——万字长文解析美团和大众点评两大数据平台是怎么融合的

背景 互联网格局复杂多变,大规模的企业合并重组不时发生。原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。...

423170
来自专栏FreeBuf

什么是集中管控式大数据安全架构?

大数据已不再是一个单纯的热门词汇了,随着技术的发展大数据已在企业、政府、金融、医疗、电信等领域得到了广泛的部署和应用,并通过持续不断的发展,大数据也已在各领域产...

29860
来自专栏云计算D1net

桌面虚拟化发展之路 新伴侣出现

目前,桌面虚拟化技术的发展已经进入快车道,随着桌面虚拟化的深入应用,越来越多的用户开始使用客户端虚拟容器这一新的桌面虚拟化技术,来获得单一镜像管理的诸多优点(如...

40590
来自专栏数据派THU

【数据蒋堂】报表的数据计算层

来源:数据蒋堂 作者:蒋步星 本文长度为1600字,建议阅读4分钟 本文从四个方面分析独立计算层的优势。 [导读]我们在上一期【数据蒋堂】报表应用的三层结构一文...

21860
来自专栏腾讯移动品质中心TMQ的专栏

由全民吃鸡引发的网游加速学习总结

不论你是或不是一个游戏玩家,最近吃鸡类游戏的火热度可见一斑。而我所在的项目团队要来干这件大事了,因为我们要实现PC端网游加速这回事,第一个目标就是绝地求生。

4.5K130
来自专栏互联网数据官iCDO

如何及为何要建立一个受欢迎的Facebook群组

译者:Amber 审校:Nic 本文长度为4781字,预估阅读时间8分钟。 摘要:本文通过解析作者自身建立网站并成功吸引众多Facebook自然访问流量的经验...

66770
来自专栏云计算爱好者

云服务器的优势在哪里?

现在企业会跟随时代的发展来更新换代企业设备等,服务器对于很多互联网企业来说,投入大而且需要更新也更为小心谨慎。

41960
来自专栏云计算D1net

云计算能够解决归档存储问题吗?

云计算似乎是归档存储数据的理想场所。它提供了按需付费的增长模式,并使组织能够缩减其内部存储空间。但问题是,三大供应商(亚马逊AWS,微软Azure和谷歌计算)并...

396130

扫码关注云+社区

领取腾讯云代金券