专栏首页加米谷大数据大数据学习:HDFS是个啥?

大数据学习:HDFS是个啥?

Hadoop分布式文件系统(HDFS)是一种基于Java的分布式文件系统,它具有容错性、可伸缩性和易扩展性等优点,是一个分布式存储的Hadoop应用程序,它提供了更易访问数据的接口。

01

架构

HDFS架构包含一个NameNode、DataNode和备用NameNode。

HDFS具有主/从架构。

NameNode

HDFS集群包含单个NameNode(主服务器),它管理文件系统命名空间并控制客户端对文件的访问权限。它维护和管理文件系统元数据;例如由哪些块构成文件,以及存储这些块的数据节点。

DataNode

可以有多个DataNode,通常是集群中每个节点有一个DataNode,它负责管理运行节点的存储访问。HDFS中的DataNode存储实际数据,可以添加更多的DataNode来增加可用空间。

备用NameNode

备用NameNode服务并非真正的备用NameNode,尽管名称是称为备用NameNode。具体来说,它并不为NameNode提供高可用性(HA)。

02

为什么需要备用NameNode

备用NameNode记录文件系统的修改痕迹,追加到本机文件系统文件的后面,作为修改日志。

备用NameNode定期合并fsimage和“编辑日志文件”,并将“编辑日志文件”的大小保持在限定范围内。

备用NameNode通常在与主NameNode不同的计算机上运行,因为它的内存要求与主NameNode的相同。

03

关键特征

容错:

为了防止机器故障,可跨多个DataNode复制容错数据,复制因子的默认值是3(如果有3个DataNode,每个块至少存储在三台计算机上)。

可伸缩性:

DataNode之间可实现直接数据传输,所以读/写次数应与DataNode的数量相匹配。

空间:

需要更多的磁盘空间?只需添加更多DataNodes和再平衡。

行业标准:

他分布式应用程序均构建在HDFS之上(HBASE,Map-Reduction)。

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • java学习需要具备什么技能

    很多人都想学习java编程技术,但是却不知道java学习需要具备什么技能,java本身就具备简单易学性和应用广泛性,下面一起看看java学习是需要具备什么技能。

    加米谷大数据
  • 大数据常见面试知识点(二)

    Client:切分文件;访问或通过命令行管理HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。

    加米谷大数据
  • HDFS的特点分析以及如何存储数据

    HDFS采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Second...

    加米谷大数据
  • 世界最优秀的分布式文件系统架构演进之路

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    孙玄@奈学教育
  • Hadoop之NameNode+ResourceManager高可用原理分析

    我是攻城师
  • 深入理解HDFS 一

    Hadoop的发展至今已经有十余年的历史了,其核心设计HDFS和MapReduce,分别解决了海量数据的存储和计算这两个问题。

    soundhearer
  • Hadoop1和Hadoop2的区别

    NameNode其实是Hadoop的一个目录服务,它包含着整个集群存储的文件的元数据。

    我脱下短袖
  • Hadoop HDFS HA 高可用

    在Hadoop 1.x 中,Namenode是集群的单点故障,一旦Namenode出现故障,整个集群将不可用,重启或者开启一个新的Namenode才能够从中恢复...

    可爱见见
  • 哇!这就是HDFS!

    今天是小史生日,为了庆祝自己今年喜提A厂offer,小史叫了二十多个人一起庆生,吕老师、小史姐姐、小林都去啦。

    Java3y
  • SQLMAP从入门到精通——第一节

    Sqlmap是一种开源的渗透测试工具,可以自动检测和利用SQL注入漏洞以及接入该数据库的服务器。它拥有非常强大的检测引擎、具有多种特性的渗透测试器、通过数据库指...

    陈殷

扫码关注云+社区

领取腾讯云代金券