专栏首页加米谷大数据大数据Hadoop入门需要填的坑

大数据Hadoop入门需要填的坑

Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。

Hadoop特点

• 高可靠性:提供按位处理的存储和计算能力值得用户信赖。

• 高扩展性:可以轻松地从小量集群扩展到数以千计的节点中。

• 高效性:提供并发的分布式计算框架,处理速度非常快。

• 高容错性:即使在少量节点宕机的情况下,也能自动完成任务。

Hadoop的核心是YARN,HDFS,Mapreduce。

HDFS

HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障。

HDFS简化了文件一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器。

Mapreduce

Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。

Hadoop将MapReduce高度抽象为两个阶段:Map阶段和Reduce阶段,每个阶段都以Key/Value对作为过程的输入和输出,并可以由程序员自己选择他们的类型。

加米谷教育:MapReduce并行计算思维讲解

HBASE(分布式列存数据库)

建立在HDFS之上,面向列的针对结构化的数据可伸缩,高可靠,高性能分布式和面向列的动态模式数据库。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

ZooKeeper

是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper为其提供:文件系统与通知机制。

HIVE

基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行。相对于用java代码编写mapreduce来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展性(支持自定义函数)。

Flume

Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Yarn分布式资源管理器

Yarn是下一代mapreduce,主要解决原始的Hadoop扩展性较差,不支持多种计算框架而提出的,YARN的优秀点是什么,践行分布式框架设计和并行化开发时有什么启发。希望这能加深Hadoop理解和算法开发思路扩展,如TensorFlow的多核任务分配机制、分布式任务分配机制等。

spark

是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。

Kafka

提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

Hadoop伪分布式部署

目前而言,不收费的Hadoop版本主要有三个,都是国外厂商,分别是:

1、Apache原始版本

2、CDH版本,对于国内用户而言,绝大多数选择该版本

3、HDP版本

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 0基础大数据开发Hadoop要学习什么内容?

    Hadoop是Apache开源组织的一个分布式基础框架,提供了一个分布式文件系统 (HDFS)、分布式计算(MapReduce)及统一资源管理框架(YARN)的...

    加米谷大数据
  • 行业视角 | Gartner报告指出数据库技术发展方向

    自Gartner发布数据库行业报告((Other Vendors to Consider for Operational DBMSs 2017))以来,第一次收...

    加米谷大数据
  • 大数据开发的工具有哪些?

    作为一个大数据开发人员,每天要与使用大量的大数据工具来完成日常的工作,那么目前主流的大数据开发工具有哪些呢?加米谷大数据为大家介绍下大数据开发工具

    加米谷大数据
  • 【SQL刷题系列】:leetcode180 Consecutive Numbers

    【SQL刷题系列】:leetcode183 Customers Who Never Order

    用户2769421
  • 基于反射、泛型的不定参数、不定类型的排序

    方法相关 参数: string数组 - 全部要比较的字段名称 bool数组 - 每一个字段升序排序还是降序排序 IList<T>集合 - 要排序的Lis...

    祝你万事顺利
  • Linux nohup命令应用简介--让Linux的进程不受终端影响

    [root@localhost ~]# PING localhost (127.0.0.1) 56(84) bytes of data.

    授客
  • 苹果患上iPhone依赖症

    新一代iPhone定价太高销量低迷,业界都猜测苹果是将会推出廉价产品,抑或像小米+红米一样采取双品牌战略(比如苹果+青苹果),库克直接否认了这种说法。

    罗超频道
  • 为什么苹果iPhone在印度惨败?不只因贵

    近日,《华尔街日报》发表了一篇评论文章,声称在全球智能手机销售正趋于平缓的情况下,大多数手机厂商都能从印度市场寻求新的增长,特别是来自中国的大量手机厂商,然而苹...

    Zip
  • go interface

    Go不是一种典型的OO语言,它在语法上不支持类和继承的概念。 没有继承是否就无法拥有多态行为了呢?答案是否定的,Go语言引入了一种新类型—Interface,它...

    李海彬
  • C# 如何在项目引用x86 x64的非托管代码

    因为现在的项目使用的是 AnyCpu 在 x86 的设备使用的是x86,在x64使用的是x64,但是对于非托管代码,必须要在x64使用x64的dll,在x86使...

    林德熙

扫码关注云+社区

领取腾讯云代金券