一文了解大数据分析利器——Hadoop

大家好,今天快哥给大家又带来了一文,是大数据的神器,不管是在业内还是在业外,那都是名声在外,他就是Hadoop。作为新时代的我们,如果不了解他,过年过节都好意思说自己在搞高科技呢。

1.什么是Hadoop?

Hadoop伴随着大数据的发展已有十多年的历史。Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台,实现在大量计算机组成的集群中对海量数据进行分布式计算。

简单来讲,总之一句话:Hadoop可以认为是一个适合大数据的分布式存储和计算平台。关键是平台哦,平台上搞什么就看各位看官自己了,在好人手里做好事,在坏人手里那可就遭殃了。

Doug Cutting是Hadoop的创始人,同时也是Google成长的见证人之一。早在 Cutting 供职于 Architext 期间,有两个年轻人曾去拜访这家公司,并向他们兜售自己的搜索技术,但当时他们的 Demo 只检索出几百万条网页,工程师们觉得他们的技术太小儿科,于是就在心里鄙视一番,把他们给送走了。这两个年轻人回去之后痛定思痛,决定自己创业。于是,他们开了一家自己的搜索公司,取名为 Google。这两个年轻人就是 Larry Page 和 Sergey Brin。

Hadoop名字并不是一个缩写,而是一个生造出来的词。是Doug Cutting儿子毛绒玩具象命名的。牛人都是这么任性有木有!

2.Hadoop的功能与作用

Hadoop的主要组件包括:HDFS、MapReduce 、Yarn、Hbase、Hive、Pig、Zookeeper、Hbase、Hive、Scoop、Spark等。主要组件构成图如下图所示。

Hadoop的所有组件中,最为核心的是HDFS和MapReduce。

Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。HDFS和MapReduce主要概念如下:

lHDFS

分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘。

lMapReduce

Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。

3.最后小结

Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。

具体深入,大家可以关注快哥评测。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171216G0LCIX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券