大数据框架hadoop服务角色介绍

大数据框架hadoop服务角色介绍

翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行环境部署的时候,遗漏了hadoop服务角色的内容,本篇特地补上这部分内容吧,不然总觉得不舒服。

要在集群中运行DKHadoop服务,需要指定集群中的一个或多个节点执行该服务的特定功能,角色分配是必须的,没有角色集群将无法正常工作,在分配角色前,需要了解这些角色的含义。

Hadoop服务角色:

1. zookeeper角色:ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群,Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步,推荐在 ZooKeeper集群中至少有3个节点。

2. JDK角色:JDK是 Java 语言的软件开发工具包, JDK是整个Java开发的核心,它包含了Java的运行环境,Java工具和Java基础的类库。

3. Apache-Flume角色:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。

4. Apache-Hive角色:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。

5. Apache-Storm角色:Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。当计算模型比较适合流式时,Storm的流式处理,省去了批处理的收集数据的时间.

6. Elasticsearch角色:Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速,安装使用方便。

7. NameNode角色:HDFS系统中的节点用于维护文件系统中所有文件的目录结构并跟踪文件数据存储于哪些数据节点。当客户端需要从HDFS 文件系统中获得文件时,它通过和NameNode通讯来知道客户端哪个数据节点上有客户端需要的文件。 一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他角色。

8. DataNode角色:在HDFS中,DataNode是用来存储数据块的节点。

9. Secondary NameNode 角色:为NameNode上的数据创建周期性检查点的节点。节点将周期性地下载当前NameNode镜像和日志文件,将日志和镜像文件合并为一个新的镜像文件然后上传到NameNode。 被分配了NameNode角色的机器不应再被分配Secondary NameNode 角色。

10. Standby Namenode角色:Standby模式的NameNode元数据(Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的,一但切换成Active模式,马上就可以提供NameNode服务。

11. JournalNode角色:Standby NameName和Active NameNode通过JournalNode通信,保持信息同步。

12. HBase角色:HBase是一个分布式的、面向列的开源数据库。HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

13. Kafka角色:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。

14. Redis角色:Redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。

15. Scala角色:Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

16. Sqoop角色:Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。

17. Impala角色:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

18. Crawler角色:Crawler是大快DKHadoop专有组件,爬虫系统,爬取动态静态数据。

19. Spark角色:Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

20. HUE角色:HUE是一组可与您的Hadoop jiqun 交互的网络应用程序。HUE应用能让您浏览HDFS和工作,管理Hive metastore,运行Hive,浏览HBase Sqoop出口数据,提交MapReduce程序,构建自定义的搜索引擎与Solr一起调度重复性的工作流。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏JackieZheng

Hadoop阅读笔记(五)——重返Hadoop目录结构

  常言道:男人是视觉动物。我觉得不完全对,我的理解是范围再扩大点,不管男人女人都是视觉动物。某些场合(比如面试、初次见面等),别人没有那么多的闲暇时间听你诉说...

238100
来自专栏静晴轩

Npm vs Yarn 之备忘大全

有则笑话,如此讲到:“老丈人爱吃核桃,昨天买了二斤陪妻子送去,老丈人年轻时练过武,用手一拍核桃就碎了,笑着对我说:你还用锤子,你看我用手就成。我嘴一抽,来了句:...

32290
来自专栏嵌入式程序猿

飞思卡尔MCU 增强型DMA简介

DMA简介 直接内存存取(DMA)是快速数据交换的重要技术,它具有独立于CPU的后台批量数据传输能力,能够满足处理中高速数据传输要求,随着技术的发展,现在大部分...

38660
来自专栏Spark学习技巧

SparkStreaming如何解决小文件问题

1.3K20
来自专栏spark随笔

对spark中RDD的partition通俗易懂的介绍

我们要想对spark中RDD的分区进行一个简单的了解的话,就不免要先了解一下hdfs的前世今生。

17100
来自专栏hadoop学习笔记

Hadoop体系结构中的服务解决介绍

翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还...

20340
来自专栏xingoo, 一个梦想做发明家的程序员

[看图说话] 基于Spark UI性能优化与调试——初级篇

Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断...

45450
来自专栏知识分享

关于IAR开发STM32配置

因为自己要学Msp430还有ZigBee发现IAR真的挺好用,,,所以以后想着就用IAR写单片机程序,, 这次配置我不会把程序的配置弄得有条理,分开文件夹存放,...

35740
来自专栏云计算D1net

开源框架Hadoop发布新版本

分布式计算开源框架Hadoop近日发布了今年的第一个版本Hadoop-2.3.0,新版本不仅增强了核心平台的大量功能,同时还修复了大量bug。 新版本对...

32660
来自专栏Hadoop实操

Cloudera Labs中的Phoenix

Cloudera Labs在2016-06-27宣布打包了Apache Phoenix项目,版本为4.7.0,并基于CDH5.7.0。安装依旧是大家熟悉的Par...

96890

扫码关注云+社区

领取腾讯云代金券