专栏首页大数据技术架构HDFS原理 | 一文读懂HDFS架构与设计

HDFS原理 | 一文读懂HDFS架构与设计

1 前言

HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件,将数据按块分布式存储到不同机器上,并被设计成适合运行在普通廉价硬件之上。本文根据Hadoop官网HDFS Architecture这一章节提炼而成,加上笔者自己的理解,希望能够帮助读者快速掌握HDFS。

2 HDFS特点

  • 流式数据访问:这点初学者可能不好理解,流式数据访问模式是HDFS数据访问特点之一,是指收集到部分数据就开始处理,而不是收集到全部数据再处理,否则会导致比较大的延迟,也会消耗大量内存。
  • 大规模数据集:HDFS对大文件存储比较友好,HDFS上的一个典型文件大小一般都在GB至TB级。
  • 一次写入多次读取:HDFS数据访问特点之一,文件经过创建、写入和关闭之后就不能够改变。这也简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。
  • 不支持低延时数据访问:这也是HDFS数据访问的特点,HDFS关系的是高吞吐量,不适合那些低延时数据访问的应用。
  • 单用户写入,不支持任意修改:HDFS的数据以读为主,只支持单个写入者,并且写操作总是以添加的形式在文末追加,不支持在任意位置进行修改。

3 HDFS架构

HDFS采用Master/Slave架构。一个HDFS集群有两个重要的角色,分别是Namenode和Datanode。Namenode是管理节点,负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。Datanode是实际存储数据的节点。HDFS暴露了文件系统的命名空间,用户能够以操作文件的形式在上面操作数据。HDFS架构图如下:

HDFS上的文件是以数据块的形式存放的,这些数据块通常存储在一组Datanode上。Namenode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求,并在Namenode的统一调度下执行数据块的创建、删除和复制。

4 数据块与副本机制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。HDFS中的文件都是一次性写入的,并且严格要求在任何时候只能有一个写入者。

Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

5 机架感知与副本存放

副本的存放是HDFS可靠性和性能的关键,HDFS在这方面做了优化,它采用一种称为机架感知(Rack Awareness)的策略来改进数据的可靠性、可用性和网络带宽的利用率。

大型HDFS实例一般运行在跨越多个机架的计算机组成的集群上,不同机架上的两台机器之间的通讯需要经过交换机。在大多数情况下,同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。

通过一个机架感知的过程,Namenode可以确定每个Datanode所属的机架id。一个简单但没有优化的策略就是将副本存放在不同的机架上。这样可以有效防止当整个机架失效时数据的丢失,并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀分布在集群中,有利于当组件失效情况下的负载均衡。但是,因为这种策略的一个写操作需要传输数据块到多个机架,这增加了写的代价。

在大多数情况下,副本系数是3,HDFS存放策略是将一个副本存放在本地机架的节点上,一个副本放在同一机架的另一个节点上,最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。机架的错误远远比节点的错误少,所以这个策略不会影响到数据的可靠性和可用性。于此同时,因为数据块只放在两个(不是三个)不同的机架上,所以此策略减少了读取数据时需要的网络传输总带宽。这一策略在不损害数据可靠性和读取性能的情况下改进了写的性能。

6 HDFS元数据管理

Namenode上保存着HDFS的命名空间。对于任何对文件系统元数据产生修改的操作,Namenode都会使用一种称为EditLog的事务日志记录下来。例如,在HDFS中创建一个文件,Namenode就会在Editlog中插入一条记录来表示;同样地,修改文件的副本系数也将往Editlog插入一条记录。Namenode在本地操作系统的文件系统中存储这个Editlog。整个文件系统的命名空间,包括数据块到文件的映射、文件的属性等,都存储在一个称为FsImage的文件中,这个文件也是放在Namenode所在的本地文件系统上。

Namenode在内存中保存着整个文件系统的命名空间和文件数据块映射(Blockmap)的映像。当Namenode启动,或者检查点被周期性触发时,它从硬盘中读取Editlog和FsImage,将所有Editlog中的事务作用在内存中的FsImage上,并将这个新版本的FsImage从内存持久化到本地磁盘上。然后HDFS删除旧的Editlog,因为这个旧的Editlog的事务都已经作用在FsImage上了。这个过程被称为一个检查点(checkpoint)。在检查点期间,Editlog的更改将应用于FsImage。checkpoint触发时机,可以是以给定的时间间隔(dfs.namenode.checkpoint.period,单位秒)触发,或者在给定数量的文件系统事务累积之后(dfs.namenode.checkpoint.txns)触发。如果设置了这两个属性,则要达到的第一个阈值将触发检查点。

7 总结

本文属于HDFS入门介绍,主要介绍了HDFS基本架构、副本机制,机架感知及元数据管理等方面内容。更多HDFS原理可以参考官网https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html。

本文分享自微信公众号 - 大数据技术架构(bigdata-tech),作者:大数据技术架构

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Apache Hudi:统一批和近实时分析的存储和服务

    一篇由三位Hudi PMC在2018年做的关于Hudi的分享,介绍了Hudi产生的背景及设计,现在看来也很有意义。

    大数据技术架构
  • 这一次彻底搞懂:分布式系统原理

    在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进程实际上由若干相对独立部分构成,则在模...

    大数据技术架构
  • Elasticsearch在十亿级别数据下,如何提高查询效率?

    本文原文(点击下面阅读原文即可进入) https://blog.csdn.net/qq_20499001/article/details/89261583

    大数据技术架构
  • 了解HDFS的数据存取机制

    HDFS是大数据存取的基础,很多数据都依赖于HDFS,如HBase数据库。作为Hadoop的基础,HDFS的数据读取机制有很多细节。我们今天来看一下。

    希望的田野
  • 快速学习-HDFS概述

    cwl_java
  • HDFS应用场景、原理、基本架构及使用方法

    如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

    王知无
  • Hadoop 图解HDFS工作原理

    结合Maneesh Varshney的漫画改编,为大家分析HDFS存储机制与运行原理。

    smartsi
  • 文本增强、半监督学习,谁才是 NLP 少样本困境问题更优的解决方案?

    在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困...

    AI科技评论
  • NLP中的少样本困境问题探究

    在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困...

    提莫在线发育
  • Day9、Python

    题目回数是指从左向右读和从右向左读都是一样的数,例如123321,909。请利用filter()滤掉非回数。 1、程序分析     filter()把传...

    Jack_Cui

扫码关注云+社区

领取腾讯云代金券