前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

原创
作者头像
一起学习大数据
修改2019-06-17 17:51:46
5660
修改2019-06-17 17:51:46
举报

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备。

狭义上,Hadoop就是单独指代Hadoop这个软件;

广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件。

Hadoop的起源

1、2001年,Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题;

2、2003-2004年,Google发布论文:GFS、MapReduce,受此启发的Doug Cutting等人实现了NDFS(HDFS的前身)和MapReduce机制,使Nutch性能飙升;

GFS:Google的分布式文件系统Google File System

MapReduce:Google的MapReduce开源分布式并行计算框架

3、2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会;

4、2006年,Hadoop(HDFS+MapReduce)从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo,领导Hadoop的开发。

Hadoop的发展简史

5、2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展;Yahoo建设了第一个Hadoop集群用于开发;4月,第一个Apache Hadoop发布;11月,Google发表了Bigtable论文,Hbase的创建的灵感来源;

BigTable:一个大型的分布式数据库

演变关系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一个Hadoop用户组会议召开,社区贡献开始急剧上升;同年,Facebook开始使用Hadoop,百度开始使用Hadoop做离线处理,中国移动开始研究使用Hadoop;

7、2008年,Hive、HBase问世,Hadoop成为Apache顶级项目。8月,第一个Hadoop商业化公司Cloudera成立。同年,淘宝开始使用Hadoop;

8、2009年-2012年,Hadoop不断发展。

2009年Cloudera推出CDH平台(首个Hadoop发行版),完全由开放源码软件组成。《Hadoop权威指南》初版出版(被誉为Hadoop圣经);2010年,HBase、Hive( Facebook) 、Pig脱离Hadoop,均成为Apache顶级项目;Hadoop社区建立大量新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性;2011年,ZooKeeper 脱离Hadoop,成为Apache顶级项目;加米谷大数据培训机构,6月大数据开发0基础班、提高班,即将开课,预报名中... 2012年,Yarn成为Hadoop子项目;

9、2014年,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

Hadoop能干什么?

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

学习Hadoop前的准备:

准备电脑(用于学习):内存最少8G、CPU起码四核(cpu i5 系列)

支持平台:Linux(CentOS)(产品开发和运行的平台)

所需软件:以Linux为例

  1. Java8.0,必须安装,建议选择Oracle公司发行的Java版本。
  2. ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。

安装所需软件:以Linux为例

$ sudo yum install ssh

$ sudo yum install rsync

下载Hadoop的发行版并解压安装

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档