首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

大数据的威力,它可能知道你何时在啪啪啪。

海量数据的威力 人们在形容一个事物非常大或者非常多的时候,往往喜欢用“海量”这个词,比如说某某某的酒量很大就称其为海量,所以在形容数据量非常大的时候,就有了“海量数据”一词,海量数据所表现出来的“大”绝对不是一般意义上的大,而是像大海一样趋于无限的“大”,是一种“大”到可怕的大,之所以会形成海量数据的主要原因在于现代社会人类快节奏的生活方式和信息互联网技术的高速发展,每天都会产生大量非结构化和半结构化的数据,这些数据中蕴含了许多潜在的商业价值和客观规律,所以只有进行了充分的分析和挖掘才能将有效的和有价值的信

06

三分钟了解下大数据技术发展史

我们常说的大数据技术,大致主要起源于Google在2004年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马车,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库BigTable,这三篇论文影响了当今大数据生态,可以称得上大数据的基石,Doug cutting大佬在基于谷歌的三篇论文开发出了hadoop hdfs分布式文件存储、MapReduce计算框架,实际上从hadoop开源代码中窥见大数据并没有多么高深的技术难点,大部分实现都是基础的java编程,但是对业界的影响是非常深远的。那个时候大多数公司还是聚焦在单机上,如何尽可能提升单机的性能,需求更贵的服务器,谷歌通过把许多廉价的服务器通过分布式技术组成一个大的存储、计算集群给业界应对存储计算问题提供了新的发展思路。

03

深入理解什么是LSM-Tree

十多年前,谷歌发布了大名鼎鼎的"三驾马车"的论文,分别是GFS(2003年),MapReduce(2004年),BigTable(2006年),为开源界在大数据领域带来了无数的灵感,其中在 “BigTable” 的论文中很多很酷的方面之一就是它所使用的文件组织方式,这个方法更一般的名字叫 Log Structured-Merge Tree。在面对亿级别之上的海量数据的存储和检索的场景下,我们选择的数据库通常都是各种强力的NoSQL,比如Hbase,Cassandra,Leveldb,RocksDB等等,这其中前两者是Apache下面的顶级开源项目数据库,后两者分别是Google和Facebook开源的数据库存储引擎。而这些强大的NoSQL数据库都有一个共性,就是其底层使用的数据结构,都是仿照“BigTable”中的文件组织方式来实现的,也就是我们今天要介绍的LSM-Tree。

021

如何基于云计算技术进行数据管理

数据的快速增长导致用户对计算机计算能力的需求越来越高。云计算在提高普通计算机快速处理能力上起到了很大的作用。云计算能够对普通用户使用计算机的模式进行改变,从而给用户提供按需分配的存储能力、计算能力以及应用服务能力等,给用户带来更多的方便,也在很大程度上降低了用户对软件和硬件采购的费用。但是,云计算需要各种技术手段作为支持,其中包括虚拟化技术、分布式的储存方式、计算数据的管理以及数据同步运算等等。 1.云计算技术 云计算是一种基于网络的新的计算方式。云计算的核心思想可以追溯到上世纪60年代。利用云计算和计算机

05

Mesa——谷歌揭开跨中心超速数据仓库的神秘面纱

点击标题下「大数据文摘」可快捷关注 大数据文摘翻译 翻译/于丽君 校对/瑾儿小浣熊 转载请保留 摘要:谷歌近期发表了一篇关于最新大数据系统的论文,是关于Mesa这一全球部署的数据仓库,它可以在数分钟内提取上百万行,甚至可以在一个数据中心发生故障时依然运作。 谷歌正在为其一项令人兴奋的产品揭开面纱,它可能成为数据库工程史上的又一个壮举,这就是一个名为Mesa的数据仓库系统,它可以处理几乎实时的数据,并且即使一整个数据中心不幸脱机也可以发挥它的性能。谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示

06

云计算基础:云基础设施机制包括哪些主要构件?云存储设备的存储等级和使用的主要存储接口

1. 云基础设施机制包括哪些主要构件?简要说明这些构件的概念。 逻辑网络边界:将一个网络环境与通信网络的其他部分分割开来,形成一个虚拟网络边界,包含并隔离了一组关于云的IT资源,且这些资源可能是分布式的。 逻辑网络边界通常由提供和控制数据中心连接的网络设备来建立,一般是作为虚拟化IT环境进行部署的。 虚拟服务器:一种模拟物理服务器的虚拟化软件。通过提供独立的虚拟服务器,可以实现多个用户共享一个物理服务器。从映像文件进行虚拟服务器的实例化是一个可以快速且按需完成资源分配过程。 云存储设备:云存储设备(clo

01

谷歌三大核心技术(三)Google BigTable中文版

Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务)。尽管应用需求差异很大,但是,针对Google的这些产品,Bigtable还是成功的提供了一个灵活的、高性能的解决方案。本论文描述了Bigtable提供的简单的数据模型,利用这个模型,用户可以动态的控制数据的分布和格式;我们还将描述Bigtable的设计和实现。

03
领券