首页
学习
活动
专区
工具
TVP
发布

行者悟空

专栏作者
51
文章
79155
阅读量
22
订阅数
Hadoop之HDFS源码分析
HDFS的读取数据过程 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。 FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的read()函数开始读取数据。 DFSInputStream连接保存此文件第一个数据块的最近的数据节点,data从数据节点读到客户端(client
天策
2018-06-22
5740
Apache Hadoop-2.x集群部署(持续更新完善)
摘 要 本文将介绍基于Hadoop2.x版本利用zookeeper搭建高可用集群环境。 前言 1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主
天策
2018-06-22
6060
让Spark运行在YARN上(Spark on YARN)
在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资源分配策略,每个任务固定数量的core,各Job按顺序依次分配资源,资源不够时排队等待。这种策略适用单用户的场景,但在多用户时,各用户的程序差别很大,这种简单粗暴的策略很可能导致有些用户总是分配不到资源,而YARN的动态资源分配策略可以很好地解决这个问题。关于资源调度,第3章中还会详细讲解。 另外,YARN作
天策
2018-06-22
4.1K0
Hadoop简介
摘 要 当今大数据最火爆的一个名词就是Hadoop,那么Hadoop是什么呢? Hadoop是什么 Hadoop是一个由Apache基金会的发布的开源的,可靠的,可扩展的,分布式的运算存储系统。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop可以解决什么问题 海量数据的存储(HDFS) 海量数据的分析(MapReduce) 资源管理调度(YARN) Hadoop来源与历史 Hapdoop是Google的集群系统的开源实现 -Google集群系统:
天策
2018-06-22
1.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档