谷歌大数据的三驾马车资料下载

互联网企业的技术人员通常有两个大的方向,一个是做大规模高并发的线上服务,另外一个是做大数据分析,本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三大论文以后,不断的发展起来的,典型的就是Apache开源的hadoop和hbase,其中hadoop的mapreduce和hdfs的思想来源于谷歌mapreduce和gfs论文,而hbase来源于谷歌的bigtable论文。

由于谷歌的论文是英文的,如果大家读英文有些困难,也可以在网上找相应的中文书籍,如果没有中文的,大家读的过程中遇到难懂的英文表述,大家通过博客或者微信截图留言给博主,博主会帮大家翻译。

资料下载


1 mapreduce-osdi04.pdf

介绍:MapReduce是一个处理大数据集的编程模型。它通过map函数把基于行的输入转化成不同的键值对,再通过reduce函数把这些键值对针对相同的键进行聚合,并在聚合的过程中进行相应的计算。

其中的重点是:

  1. 如何分割基于行的源文件。
  2. 在map阶段如何把行数据映射成键值对。
  3. 对大数据集如何进行partition。
  4. 在reduce阶段如何进行响应的逻辑计算并输出结果。

其中,一个最典型的用例是给出一篇文章,计算每个单词出现的个数,起逻辑流程为:

  1. 把文章按照行来切分。
  2. 在map阶段,对每一行的每个单词构建一个键值对,键是单词本身,值是固定值"1"。
  3. 对map的结果进行分区,使用默认策略,通过哈希进行分区。
  4. 在reduce阶段,统计聚合在同一个key的值的数量,得出每个单词出现的次数。

下载链接 密码:olwp

2 gfs-sosp2003.pdf

介绍:GFS是一个分布式文件系统,用来存储大量的较大文件,它可以在廉价的硬件上实现存储文件,并做到容错性,并且针对多个客户同时访问提供比较有竞争力的性能。

其中的重点是:

  1. 把一个较大的文件切分成不同的单元块。
  2. 把每一个单元块存储在ChunkServer上,并且每一块都会复制在多个ChunkServer服务器上。
  3. 每一个文件包含多少块和哪些块这些元数据存储在GFS Master服务器上。

这是一个低成本的分布式存储系统,用来数据量非常大的存储场景,通常为mapreduce的大数据处理模型提供输入和输出的存储系统。

下载链接 密码:c2p4

3 bigtable-osdi06.pdf

介绍:Bigtable是一个可以管理结构化数据的分布式存储系统,它本身支持水平的横向扩展,通过使用成千上万的连接服务器,来支持PB量级的数据处理。

其中的重点是:

  1. Chubby服务器存储SSTable根的数据信息。
  2. Tablet server的水平扩展以及分裂。
  3. SSTable的存储结构。
  4. 列式存储结构,RowKey以及列簇的设计。
  5. LSM Tree的数据结构以及特点。

在谷歌,网页索引,谷歌帝企鹅,谷歌财经等的数据都存储在Bigtable集群里。

4 MapReduce_NextGen_Architecture.pdf

介绍:在第一代mapdure的实现中,资源分配和任务监控都耦合在Master节点上,在Worker节点数增加到一定的数量级,Master节点出现了性能瓶颈,下一代MapReduce框架Yarn把资源管理器和任务管理器分离,解决了这个性能瓶颈。

下载链接 密码:kb1n

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

机器学习数据采集入门经验分享

904
来自专栏北京马哥教育

看完此文再不懂区块链算我输:手把手教你用Python从零开始创建区块链

来源:51CTO技术栈 ID:blog51cto “三点钟区块链”无疑成为了大家春节期间焦虑的根源,而“区块链”注定是 2018 年被持续讨论、关注的行业性热...

3728
来自专栏用户2442861的专栏

Linux网络编程书籍

原文转载:http://blog.csdn.net/21aspnet/article/details/6694485

763
来自专栏FreeBuf

大话蜜罐日志分析

*本文原创作者:Leon不会玩QEMU,属Freebuf原创奖励计划,未经许可禁止转载 0×00 前言 在部署蜜罐之后,会产生大量的日志,对于威胁情报而言,我们...

2709
来自专栏FreeBuf

那些年绕过的反爬手段

笔者第一份工作就是以java工程师的名义写爬虫,不得不说第一份工作很重要啊,现在除了爬虫不会干别的,到现在已经干了近5年了,期间经历了不少与反爬策略的斗争。最近...

1114
来自专栏吉浦迅科技

推荐5种让数据库快的飞起的GPU加速产品

GPU承诺会彻底改变大数据分析领域,从当前来看,这并不是虚言,当我们数据量达到一定级别的时候,我们一定会转向使用GPU。大多数的数学密集型应用都包含机器学习框架...

3809
来自专栏PPV课数据科学社区

【学习】数学之美系列十:有限状态机和地址识别

数学之美系列十:有限状态机和地址识别 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。 一个有限状态机是一个特...

34311
来自专栏互扯程序

哪些曾经的高科技产品会消失呢?又被哪些高科技所替代呢?

KS Knowledge Sharing 知识分享 现在是资源共享的时代,同样也是知识分享的时代,如果你觉得本文能学到知识,请把知识与别人分享。 写在...

18210
来自专栏钱曙光的专栏

一周极客热文:从分析8000条软件工程师招聘信息所学到的

Aline Lerner 过去以编程谋生,现在从事招聘工程师的工作。去年,她通过参考全年的有效招聘数据编写了一篇文章,总结如下: 如果可以的话,尽可能让招聘信息...

2098
来自专栏机器人网

无人机开发-图传技术浅析

无人机能够一跃进入大众视野,并迅速在大众市场火热发展,是很多人始料未及的。从刚开始的空中摄录,到后来的实时摄录,方便的无人机图传功能无疑为无人机加足了筹码,赚足...

982

扫码关注云+社区