腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

行者悟空

专栏作者

51

文章

79155

阅读量

22

订阅数

Hadoop之HDFS源码分析

HDFS的读取数据过程初始化FileSystem，然后客户端(client)用FileSystem的open()函数打开文件 FileSystem用RPC调用元数据节点，得到文件的数据块信息，对于每一个数据块，元数据节点返回保存数据块的数据节点的地址。 FileSystem返回FSDataInputStream给客户端，用来读取数据，客户端调用stream的read()函数开始读取数据。 DFSInputStream连接保存此文件第一个数据块的最近的数据节点，data从数据节点读到客户端(client

2018-06-22

5740

Apache Hadoop-2.x集群部署（持续更新完善）

zookeeper xml node.js hadoop 大数据

摘要本文将介绍基于Hadoop2.x版本利用zookeeper搭建高可用集群环境。前言 1.在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主

2018-06-22

6060

让Spark运行在YARN上（Spark on YARN）

yarn node.js hadoop 大数据 spark

在Spark Standalone模式下，集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责，其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资源分配策略，每个任务固定数量的core，各Job按顺序依次分配资源，资源不够时排队等待。这种策略适用单用户的场景，但在多用户时，各用户的程序差别很大，这种简单粗暴的策略很可能导致有些用户总是分配不到资源，而YARN的动态资源分配策略可以很好地解决这个问题。关于资源调度，第3章中还会详细讲解。另外，YARN作

2018-06-22

4.1K0

hadoop 大数据 hive 开源分布式

摘要当今大数据最火爆的一个名词就是Hadoop，那么Hadoop是什么呢？ Hadoop是什么 Hadoop是一个由Apache基金会的发布的开源的，可靠的，可扩展的，分布式的运算存储系统。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop可以解决什么问题海量数据的存储（HDFS）海量数据的分析（MapReduce）资源管理调度（YARN） Hadoop来源与历史 Hapdoop是Google的集群系统的开源实现 -Google集群系统:

2018-06-22

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态