数据是系统最重要的信息。大部分系统都是对数据的管理。应用系统通过数据模型来构建现实世界,通过算法操作对象或数据结构,来改变数据模型的状态。数据被组织在操作系统文件中,我们通过数据系统来组织,查询,搜索,处理数据。
之前林仕鼎曾整理过系统架构领域的学习资料,这几天Spark核心团队成员辛湜(Reynold Xin)公开了他整理的一份数据库学习资料列表,Hacker News上引起了不少讨论。其中的评述文字也很有价值,简要编译如下。大家对这个列表如有补充,请评论。 基础与算法 The Five-Minute Rule Ten Years Later, and Other Computer Storage Rules of Thumb (1997): 此文与十年前的原始论文解释了一个量化公式,用来计算数据页是否应该缓存在内
摘要:虽然SQL数据库是非常有用的工具,但经历了15年的一支独秀之后垄断即将被打破。这只是时间问题:被迫使用关系数据库,但最终发现不能适应需求的情况不胜枚举。 简介 NoSQL,是一项全新的数据库革命性运动,NoSQL的拥护者们提倡运用非关系型的数据存储。现今的计算机体系结构在数据存储方面要求具备庞大的水平扩展性,而NoSQL致力于改变这一现状。目前Google的 BigTable 和Amazon 的Dynamo使用的就是NoSQL型数据库。 但是NoSQL数据库之间的不同,远超过两 SQL数据库之间的差别
摘要:虽然SQL数据库是非常有用的工具,但经历了15年的一支独秀之后垄断即将被打破。这只是时间问题:被迫使用关系数据库,但最终发现不能适应需求的情况不胜枚举。
微服务架构下,很适合用 DDD(Domain-Drive Design)思维来设计各个微服务,使用领域驱动设计的理念,工程师们的关注点需要从 CRUD 思维中跳出来,更多关注通用语言的设计、实体以及值对象的设计。至于数据仓库,会有更多样化的选择。分布式系统中数据存储服务是基础,微服务的领域拆分、领域建模可以让数据存储方案的选择更具灵活性。
大数据利器.xls 类别 名称 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Kylin http://kylin.io eBay开源的基于Hadoop的分布式OLAP分析引擎,旨在减
所谓海量,就是数据量很大,可能是TB级别甚至是PB级别,导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据,我们想到的最简单方法即是分治法,即分开处理,大而化小,小而治之。我们也可以想到集群分布式处理。
Dynamo 是一个高可用的 KV 存储系统。为了保证高可用和高性能,Dynamo 采用了最终一致性模型,它对开发人员提供一种新型 API,使用了版本机制,并通过用户侧辅助解决冲突。Dynamo 目标是提供不间断的服务,同时保证性能和可扩展性。由于亚马逊大量采用了去中心化、高度解耦微服务架构,因此对微服务状态的存储系统的可用性要求尤其高。
对比传统关系型数据库,NoSQL有着更为复杂的分类——键值、面向文档、列存储以及图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。
单主、多主复制思路都是:客户端向一个主节点发写请求,而DB系统负责将写请求复制到其他副本。主节点决定写顺序,从节点按相同顺序应用主节点发送的写日志。
近段时间以来,通过接触有关海量数据处理和搜索引擎的诸多技术,常常见识到不少精妙绝伦的架构图。除了每每感叹于每幅图表面上的绘制的精细之外,更为架构图背后所隐藏的设计思想所叹服。个人这两天一直在搜集各大型
包括:MySQL、MariaDB(MySQL的代替品,英文维基百科从MySQL转向MariaDB)、Percona Server(MySQL的代替品)、PostgreSQL、Microsoft Access、Microsoft SQL Server、Google Fusion Tables。 FileMaker、Oracle数据库、Sybase、dBASE、Clipper、FoxPro、foshub。几乎所有的数据库管理系统都配备了一个开放式数据库连接(ODBC)驱动程序,令各个数据库之间得以互相集成。
NoSQL(Not only SQL)数据库,可以理解为区别于关系型数据库如mysql、oracle等的非关系型数据库。
了解如何在你的系统设计中使用Dynamo系列、AWS DynamoDB、Cassandra和SimpleDB ◆ 在我们开始之前的快速介绍 早在2004年,亚马逊正在运行一个大型的分布式Oracle数据库集群。想象一下,大量的服务器,运行大量笨重的闭源专有软件,并没有真正关注规模和可用性。他们在当时的规模下挑战了商业数据库的极限。 重要的是要了解这是个不同的时代。分布式系统并不常见,关系型数据库是唯一的主要OLTP数据库,最重要的是,当时没有足够的人或数据在线。 看到互联网在过去十年或二十年里的爆炸性
回味过去,展望未来,开始分布式数据库探索之旅,首先了解历史,本文大致梳理一下数据库发展过程,从1970年到2018年,数据库的发展过程,仅供参考,交流和学习,感谢您阅读!
通常来说,数据系统在分布式系统中会有三级划分:数据集(如 Database、Bucket)——分片(Partition)——数据条目(Row、KV)。通常,每个分片只属于一个数据集,每个数据条目只属于一个分片。单个分片,就像一个小点的数据库。但是,跨分区的操作的,就要复杂的多。
NoSQL这个词语伴随着云计算和大数据的出现也有一些时日,对于NoSQL和SQL的区别到底是什么,NoSQL自己又是什么,往往很多人还有一些困惑。这篇文章主要阐述一下这些基本概念,做个简单的介绍。 SQL是国际标准化了的数据库的查询语言,由IBM发明,被Oracle抄袭,之后广泛被各大厂商支持。其最著名的SELECT FROM WHERE GROUP BY基本上就是路人皆知了。SQL有很多的标准,从当前环境来看,最重要的应该是SQL1998,基本上现在任何一个新的startup要想写个database,SQ
NoSQL是一种非关系型DMS,不需要固定的架构,可以避免joins链接,并且易于扩展。NoSQL数据库用于具有庞大数据存储需求的分布式数据存储。NoSQL用于大数据和实时Web应用程序。例如,像Twitter,Facebook,Google这样的大型公司,每天可能产生TB级的用户数据。
NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网。给大家分享。
本文介绍了如何在Dynamo中创建UI,通过使用WPF技术实现了窗口的创建和交互。首先介绍了IronPython和Dynamo的基础知识,然后讲解了实现原理和准备工作。最后通过具体的操作步骤和代码示例讲解了如何在Dynamo中创建UI。
Dynamo风格数据库来源于亚马逊的Dynamo: Amazon’s Highly Available Key-value Store 论文,在该论文中论述了一种无主复制的数据库,受此启发,携程酒店开发了多存储介质预定库Hare和高可用性高性能的动态信息存储服务InfoKeeper。本文将介绍Dynamo风格的无主复制数据库,及其在携程酒店的实践。
Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynamo (分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型)。Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础,结合了Google BigTable基于列族(Column Family)的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。
Cassandra思想和Dynamo差不多,还吸收了Bigtable的实现。因为是Dynamo+Bigtable,所以号称比Bigtable套娃的HBase性能高很多。
第1章引言 1.1编写目的 介绍apache cassandra。 1.2非关系型数据库—Cassandra 1.2.1简介 Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite(分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非 常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。)Ca
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。
“不懂得日志,你就不可能完全懂得数据库”Jay Kreps说道,Jay Kreps是LinkedIn公司首席工程师,本文介绍他本人对于日志的心得体会,包括日志是什么,如何在数据集成、实时处理和系统构建中使用日志等。 ◆ ◆ ◆ 我们最后要讨论的是在线数据系统设计中日志的角色。 在分布式数据库数据流中日志的角色和在大型组织机构数据完整中日志的角色是相似的。在这两个应用场景中,日志是对于数据源是可靠的,一致的和可恢复的。组织如果不是一个复杂的分布式数据系统呢,它究竟是什么? 如果换个角度,你可以看到把整个组织系
本文介绍了Dynamo数据库技术的演进,从Amazon DynamoDB到Amazon DynamoDB on Demand,再到Amazon DynamoDB Local。主要内容包括:DynamoDB的架构、DynamoDB的存储模型、DynamoDB的查询引擎、DynamoDB的索引引擎、DynamoDB的缓存策略、DynamoDB的运维工具、DynamoDB的监控工具、DynamoDB的自动化运维工具、DynamoDB的定价策略、DynamoDB的实例类型、DynamoDB的访问接口、DynamoDB的客户端API、DynamoDB的Java客户端API、DynamoDB的Python客户端API、DynamoDB的C++客户端API、DynamoDB的JavaScript客户端API、DynamoDB的REST客户端API、DynamoDB的SQL接口、DynamoDB的Table API、DynamoDB的Global Secondary Index API、DynamoDB的Local Secondary Index API、DynamoDB的Stream API、DynamoDB的备份与恢复、DynamoDB的故障转移、DynamoDB的负载均衡、DynamoDB的自动化运维、DynamoDB的文档、DynamoDB的GitHub仓库、DynamoDB的官方文档、DynamoDB的在线学习资源、DynamoDB的知乎专栏、DynamoDB的YouTube频道、DynamoDB的Twitter、DynamoDB的LinkedIn、DynamoDB的Reddit、DynamoDB的Quora、DynamoDB的StackOverflow、DynamoDB的GitHub。
在任何一个关系数据库中,第一范式是对关系模式的基本要求,不满足第一范式的数据库就不是关系数据库
Redis是Remote Dictionary Server的缩写,他本质上一个Key/Value数据库,与Memcached类似的NoSQL型数据库。
本文参考了网上众多文章,把 Amazon Dynamo 架构汇总成文,为后续源码分析奠定基础。
谷歌在2006年的一份研究报告中首次对Bigtable进行了阐述,如果你熟悉Bigtable这个名词,那么:行先是以一种非常独特的方式被索引,随后Bigtable利用行键对数据进行分割,将它们分布到集群中。这句话你应该不陌生。
DB-Engines 12 月份数据库流行度排行榜已发布更新,下面让我们一起来看看这份榜单,了解数据库技术的发展趋势。
关于NoSQL有这样一个误解: NoSQL最大的谎言是其简单,其实不是,简单意味着开发人员和运营人员需要做很多难且复杂的事情,它们最终得重复实现数据库已经实现的事情。 当人们试图捍卫关系数据库时,没有人质疑这段误解,特别是在黑暗的2009-2010年,当时NoSQL还高喊No SQL,各种NoSQL数据库从地面下冒出来,大部分的他们都有些夸大其词。 但是,质疑NOSQL是虚假繁荣经济的同时,也可以同时质疑关系数据库的复杂性。 真正的事实是,没有简单的关系数据库,数据库有很多功能和行为甚至好像很简单,但是当可
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。
【新智元导读】昨天,新智元介绍了谷歌的全新搜索工具“Talk to Books”,基于自然语言文本理解,用户能够凭语义而非关键词来实现搜索功能。谷歌搜索的“AI化”令人眼前一亮,谷歌是否即将从当今的搜
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
NoSql是一个很老的概念了,但对自己来说,仍然是一个短板,果断补上。 首先通过几个简单的例子来了解NOSQL在国内的情况(2013年左右的数据,有些过时),比如新浪微博,其就有200多台物理机运行
大西雅图地区是云的故乡。这里一年超过8个月的雨季让有云的天气遍布夏天以外的每一天。华盛顿湖把大西雅图地区划成了东岸和西岸。东岸是乡下,上个世纪微软在这里成就了它的软件帝国。西岸是城里,夜间常弥漫着大麻的气息,偶尔还会有突突突的枪声。 我们今天要讲的故事的主角其实大家都已经猜到了。这个公司有着很多的称呼,它曾经被微软前CEO 巴尔默亲切的称呼为湖对岸卖书的,自2000年的dotcom泡沫中存活,在2008年的经济危机以后开始发家,09年到16年股票翻了10倍。这是一家以节俭著称的公司。这家公司还因为工作环
一般而言,数据缺乏组织及分类,无法明确的表达事物代表的意义,它可能是一堆的杂志、一大叠的报纸、数种的开会记录或是整本病人的病历纪录。数据描述事物的符号记录,是可定义为意义的实体,涉及事物的存在形式。是关于事件之一组离散且客观的事实描述,是构成讯息和知识的原始材料。
类别 名称 (可重点关注加粗部分) 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Presto http://prestodb.io/ Facebook开源的分布式SQL查询引擎,适用
The Google File System (2003) MapReduce: Simplified Data Processing on Large Clusters (2004) Bigtable: A Distributed Storage System for Structured Data (2006)
我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。 Netflix Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。 以下是上述文章中
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,如:对数据库高并发读写的需求、对海量数据的高效率存储和访问的需求、对数据库的高可扩展性和高可用性的需求等等,下面我就跟大家几种常见的nosql数据库。 1、MongoDB 介绍 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。主要解决的是
1、MongoDB 介绍 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。主要解决的是海量数据的访问效率问题,为WEB应用提供可扩展的高性能数据存储解决方案。当数据量达到50GB以上的时候,MongoDB的数据库访问速度是MySQL的10倍以上。MongoDB的并发读写效率不是特别出色,根据官方提供的性能测试表明,大约每秒可以处理0.5万~1.5万次读写请求。MongoDB还自带了一个出色的分布式文件系统GridFS,可以支持海量的数据存储。 MongoDB也有一个Ruby的项目Mongo
Loki在分布式部署的模式下,保存Ingester服务的状态主要有3个渠道,分别是etcd、consul和基于gossip协议的memberlist。不管Loki用的是什么方式,它们最终都是将哈希环以KV的方式保存。再聊Loki之前,先来了解下一致性哈希的基本概念。
简介 随着公司业务量的逐年成长,粘性会话(Sticky Session)越来越成为应用横向扩展(Scale Out)的瓶颈,为消除粘性会话,支持应用无状态(Stateless),我们SOA团队在今年发起了集中式会话服务器(Centralized SessionServer)项目,该项目的核心是一个我们独立设计和开发的高性能持久化的Key/Value存储引擎,我们称为SessionDB,本文介绍SessionDB存储引擎的特性,架构和设计,我们的性能优化,并做出性能评测和分析。 我们的Key-Value存储引
Bloom过滤器是一种节省空间的概率数据结构,用于测试元素是否为某集合的成员。它用于我们只需要检查元素是否属于对象的场景。
随着计算机的飞速发展,网站产生了大量数据,数据规模远超传统数据库系统能够处理的规模,我们把具有量大,存储速度要求高,数据多样性丰富的特征的数据统称为大数据。
分布式高可用键值对数据库Riak - 背景篇(3) Dynamo对于数据版本的处理 数据版本问题不止存在于分布式系统,这里针对分布式数据库系统简单讨论下。先看一个简单的例子,用户x对key1做了一次写入操作,我们设值是数字3。然后用户y读取了key1,这个时候用户y知道的值是3。然后用户x对值做了一个+1操作,将新值写入,现在key1的值是4了。而用户y也做了一次+1操作,然后写入,因为用户y读到的值是3,y不知道这个值现在已经变化了,结果按照语义本应该是5的值,现在还是4。 解决这个问题常用的方法是设
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型,由 Facebook 创建,在一些最流行的网站中得到应用。
领取专属 10元无门槛券
手把手带您无忧上云