首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据学习:HDFS是个啥?

大数据学习:HDFS是个啥?

作者头像
加米谷大数据
发布2019-09-29 16:58:02
发布2019-09-29 16:58:02
7060
举报
文章被收录于专栏:加米谷大数据加米谷大数据
Hadoop分布式文件系统(HDFS)是一种基于Java的分布式文件系统,它具有容错性、可伸缩性和易扩展性等优点,是一个分布式存储的Hadoop应用程序,它提供了更易访问数据的接口。

01

架构

HDFS架构包含一个NameNode、DataNode和备用NameNode。

HDFS具有主/从架构。

NameNode

HDFS集群包含单个NameNode(主服务器),它管理文件系统命名空间并控制客户端对文件的访问权限。它维护和管理文件系统元数据;例如由哪些块构成文件,以及存储这些块的数据节点。

DataNode

可以有多个DataNode,通常是集群中每个节点有一个DataNode,它负责管理运行节点的存储访问。HDFS中的DataNode存储实际数据,可以添加更多的DataNode来增加可用空间。

备用NameNode

备用NameNode服务并非真正的备用NameNode,尽管名称是称为备用NameNode。具体来说,它并不为NameNode提供高可用性(HA)。

02

为什么需要备用NameNode

备用NameNode记录文件系统的修改痕迹,追加到本机文件系统文件的后面,作为修改日志。

备用NameNode定期合并fsimage和“编辑日志文件”,并将“编辑日志文件”的大小保持在限定范围内。

备用NameNode通常在与主NameNode不同的计算机上运行,因为它的内存要求与主NameNode的相同。

03

关键特征

容错:

为了防止机器故障,可跨多个DataNode复制容错数据,复制因子的默认值是3(如果有3个DataNode,每个块至少存储在三台计算机上)。

可伸缩性:

DataNode之间可实现直接数据传输,所以读/写次数应与DataNode的数量相匹配。

空间:

需要更多的磁盘空间?只需添加更多DataNodes和再平衡。

行业标准:

他分布式应用程序均构建在HDFS之上(HBASE,Map-Reduction)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档