专栏首页大数据学习交流零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?
原创

零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备。

狭义上,Hadoop就是单独指代Hadoop这个软件;

广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件。

Hadoop的起源

1、2001年,Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题;

2、2003-2004年,Google发布论文:GFS、MapReduce,受此启发的Doug Cutting等人实现了NDFS(HDFS的前身)和MapReduce机制,使Nutch性能飙升;

GFS:Google的分布式文件系统Google File System

MapReduce:Google的MapReduce开源分布式并行计算框架

3、2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会;

4、2006年,Hadoop(HDFS+MapReduce)从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo,领导Hadoop的开发。

Hadoop的发展简史

5、2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展;Yahoo建设了第一个Hadoop集群用于开发;4月,第一个Apache Hadoop发布;11月,Google发表了Bigtable论文,Hbase的创建的灵感来源;

BigTable:一个大型的分布式数据库

演变关系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一个Hadoop用户组会议召开,社区贡献开始急剧上升;同年,Facebook开始使用Hadoop,百度开始使用Hadoop做离线处理,中国移动开始研究使用Hadoop;

7、2008年,Hive、HBase问世,Hadoop成为Apache顶级项目。8月,第一个Hadoop商业化公司Cloudera成立。同年,淘宝开始使用Hadoop;

8、2009年-2012年,Hadoop不断发展。

2009年Cloudera推出CDH平台(首个Hadoop发行版),完全由开放源码软件组成。《Hadoop权威指南》初版出版(被誉为Hadoop圣经);2010年,HBase、Hive( Facebook) 、Pig脱离Hadoop,均成为Apache顶级项目;Hadoop社区建立大量新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性;2011年,ZooKeeper 脱离Hadoop,成为Apache顶级项目;加米谷大数据培训机构,6月大数据开发0基础班、提高班,即将开课,预报名中... 2012年,Yarn成为Hadoop子项目;

9、2014年,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

Hadoop能干什么?

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

学习Hadoop前的准备:

准备电脑(用于学习):内存最少8G、CPU起码四核(cpu i5 系列)

支持平台:Linux(CentOS)(产品开发和运行的平台)

所需软件:以Linux为例

  1. Java8.0,必须安装,建议选择Oracle公司发行的Java版本。
  2. ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。

安装所需软件:以Linux为例

$ sudo yum install ssh

$ sudo yum install rsync

下载Hadoop的发行版并解压安装

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据和Hadoop什么关系?为什么大数据要学习Hadoop?

    大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这...

    一起学习大数据
  • 大数据入门学习之Hadoop技术优缺点

    (2)Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。

    一起学习大数据
  • 大数据方面核心技术有哪些?新人必读

    大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层...

    一起学习大数据
  • Hadoop专业解决方案-第一章 大数据和Hadoop生态圈

      非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hado...

    数据饕餮
  • Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

      非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hado...

    数据饕餮
  • 15种最佳方式帮你顺利掌握Hadoop技术

    在探讨今天的主题——如何利用各类资源学习Hadoop知识——之前,让我们首先搞清楚另一个问题:大数据Hadoop到底是什么?简单来 讲,Hadoop是一套用于...

    小小科
  • Apache Hadoop 3.0新版本介绍及未来发展方向

    ? 过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更...

    小莹莹
  • 【学习】大数据和Hadoop生态圈,Hadoop发行版和企业级应用

    本文转自张子良的博客Hadoop develop,张子良,金融大数据专家,提供大数据方案咨询,技术咨询和企业内训。 第一章 大数据和Hadoop生态圈 本章主要...

    小莹莹
  • 你应该了解的十个Hadoop的应用场景

    在线旅游:目前全球范围内 80%的在线旅游网站都是在使用 Cloudera 公司提供的 Hadoop发行版,其中 SearchBI 网站曾经报道过的 Exped...

    加米谷大数据
  • 从火种到核心,浅析Hadoop大数据用户的演变

    在Hadoop发展的8年时间里,我们看到一种“使用浪潮”——一代又一代用户在相同的时间和类似的环境下使用Hadoop。每一个在数据处理时使用了Hadoop的用户...

    小莹莹

扫码关注云+社区

领取腾讯云代金券