Hadoop源码学习之HDFS(一)

  Hadoop的HDFS可以分为NameNode与DataNode,NameNode存储所有DataNode中数据的元数据信息。而DataNode负责存储真正的数据(数据块)信息以及数据块的ID。

  NameNode上并不永久保存哪个DataNode上有哪些数据块的信息,而是通过DataNode启动时的上报,来更新NameNode上的映射表。

  那么从DataNode上开始一点一点看:

  在存储层面,Storage抽象类继承了StorageInfo。在StorageInfo中存储了layoutVersion:版本号,namenodeID是Storage的ID,cTime,creation time,storageType。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏闵开慧

在Ubuntu中安装Hadoop

在装Hadoop之前首先需要:  1.java1.6.x 最好是sun的,1.5.x也可以  2.ssh 安装ssh $ sudo apt-get insta...

35310
来自专栏肖力涛的专栏

Spark踩坑记:Spark Streaming+kafka应用及调优

本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka 在舆情项目中的应用,最后将自己...

5.6K3
来自专栏Linux驱动

STM32—无需中断来实现使用DMA接收串口数据

本节目标: 通过DMA,无需中断,接收不定时长的串口数据 描述: 当在串口多数据传输下,CPU会产生多次中断来接收串口数据,这样会大大地降低CPU效率,同时...

4505
来自专栏Jed的技术阶梯

Spark-RDD持久化

使用不同参数的组合构造的实例被预先定义为一些值,比如MEMORY_ONLY代表着不存入磁盘,存入内存,不使用堆外内存,不进行序列化,副本数为1,使用persis...

2313
来自专栏行者悟空

Spark RDD的Shuffle

1933
来自专栏涂小刚的专栏

【Spark教程】核心概念RDD

RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通...

2K0
来自专栏about云

spark入门基础知识常见问答整理

一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpa...

36610
来自专栏LhWorld哥陪你聊算法

【Spark篇】---Spark中控制算子

Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。

1003
来自专栏Spark学习技巧

视频:RDD的特性介绍及源码阅读必备基础

1 - A list of partitions 2 - A function for computing each split 3 - A list o...

1255
来自专栏行者悟空

Spark RDD的Action

1556

扫码关注云+社区

领取腾讯云代金券