[Hadoop权威指南](第二版)中文

本书是您纵情享用数据之美的得力助手。作为处理海量数据集的理想工具,Apache Hadoop架构是MapReduce算法的一种开源应用,是Google(谷歌)开创其帝国的重要基石。本书内容丰富,展示了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。.

本书完全通过案例学习来展示如何用Hadoop解决特殊问题,它将帮助您:

使用Hadoop分布式文件系统(HDFS)来存储海量数据集,通过MapReduce对这些数据集运行分布式计算..

熟悉Hadoop的数据和I/O构件,用于压缩、数据集成、序列化和持久处理

洞悉编写MapReduce实际应用程序时常见陷阱和高级特性

设计、构建和管理专用的Hadoop集群或在云上运行Hadoop

使用Pig这种高级的查询语言来处理大规模数据

利用HBase这个Hadoop数据库来处理结构化和半结构化数据

学习Zookeeper,这是一个用于构建分布式系统的协作原语工具箱

如果您拥有海量数据,无论是GB级还是PB级,Hadoop都是完美的选择。本书是这方面最全面的参考。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

对比Pig、Hive和SQL,浅看大数据工具之间的差异

【编者按】在笔者看来,语言和工具之争从来都没有太大的意义,所谓存在既有道理,如何在场景下做出最合适的选择才至关重要。本文,DeZyre公司专家Manisha N...

58780
来自专栏钱塘大数据

Spark与Hadoop两大技术趋势解析

导读: 开源数据集如今深受开发者喜爱,比如谷歌的Images dataset数据集,YouTube-8M数据集等。通过对数据集里的数据进行分析,可以发现许多隐...

39640
来自专栏CDA数据分析师

大数据分析师为什么需要学习Spark?

作者 CDA 数据分析师 Spark这套速度极快的内存分析引擎与以往的大数据处理框架相比具有诸多优势,从而能够轻松地为大数据应用企业带来理想的投资回报。Sp...

28550
来自专栏大数据技术学习

常用的大数据技术有哪些?hadoop学习总结

大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数...

31220
来自专栏大数据和云计算技术

SQL on Hadoop技术分析(一)

背景 Hadoop的诞生是划时代的数据变革,但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL(尤其是PL/SQL)的支持一...

42450
来自专栏腾讯大数据的专栏

飞起来的大象-Hadoop从离线到在线

时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研...

31980
来自专栏大数据和云计算技术

hadoop发行商介绍:Cloudera

‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍ ‍‍Cloudera由...

32680
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(182)-作业成本要素与核算模型

作业成本核算模型是实施作业成本法(Activity-Based Costing)的基础,是对作业成本法核算体系的描述,因此作业成本核算模型在作业成本法的实施过程...

31670
来自专栏about云

Hadoop是从Lucene中独立出来的子项目--Hadoop产生背景

问题导读 我们在学习一项新知识,可能不太关注它的产生背景,但是任何故事如果脱离了它的时代,就不会在有意义。如果想了解Hadoop,我们需要知道 1.它是如何产生...

32680
来自专栏hadoop学习

大数据hadoop入门之hadoop家族详解

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习ha...

17920

扫码关注云+社区

领取腾讯云代金券