首页
学习
活动
专区
工具
TVP
发布
技术百科首页 >HDFS >什么是HDFS?

什么是HDFS?

词条归属:HDFS

HDFS全称为Hadoop Distributed File System,是Hadoop生态系统中的一部分。HDFS是一个分布式文件系统,旨在运行于大规模数据集的分布式环境中,具有高度容错性和高度可用性。HDFS的设计目标是能够管理超大规模的数据集,支持高吞吐量数据访问,适用于部署在廉价硬件上的环境中。

HDFS主要由以下两个组件组成:

  • NameNode:NameNode是HDFS的主节点,负责管理文件系统的命名空间和客户端的访问请求。它维护了文件系统的目录树和文件到数据块的映射关系。
  • DataNode:DataNode是HDFS的从节点,负责存储和检索文件数据。它们接受来自客户端的读写请求,从本地磁盘或网络中的其他DataNode上读取或写入数据块。

HDFS使用一种称为块(Block)的数据单元来组织和管理文件数据。它将每个文件分成固定大小的块,通常为64MB或128MB,然后将这些块分布在不同的DataNode上,以实现数据的冗余和可靠性。HDFS还提供了数据访问和安全性等方面的支持,如文件读写权限控制、数据压缩和加密等。

相关文章
什么是Hadoop?什么是HDFS?
什么是Hadoop?什么是HDFS?马 克-to-win @ 马克java社区:Hadoop是Apache基金会开发的一个分布式系统基础架构。比如前面我们接触的Spring就是一个开发应用框架。Hadoop 实现了一个分布式文件系统( Distributed File System),加上Hadoop,即HDFS。Hadoop最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而 MapReduce则为海量的数据提供了计算。从以下的包名就可以看出。 import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper;
马克java社区
2021-06-24
2.3K0
什么是HDFS透明加密
数据加密是安全级别要求较高企业所必须的,比如说金融行业,医疗行业或者政府。我们知道HDFS中的数据会以block的形式保存在各台数据节点的本地磁盘中,但这些block都是明文的,如果在操作系统下,直接访问block所在的目录,通过Linux的cat命令是可以直接查看里面的内容的,而且是明文。
Fayson
2018-03-29
4.1K0
0630-6.2-什么是HDFS ACL
HDFS支持POSIX访问控制列表(ACLs),以及已支持的传统POSIX权限模型。ACL通过给特定命名的user和group设置不同的权限的方法来控制HDFS文件的访问。ACL的方式增强了传统权限模型,因为它可以让你给任意组合的user和group来定义访问控制,而不是为单个owner/user或单个group。本文Fayson主要介绍如何使用Cloudera Manager开启HDFS的ACL,以及如何在HDFS中使用ACL。
Fayson
2019-05-17
1.3K0
什么是HDFS的纠删码
Fayson在前面的文章中介绍过CDH6,参考《Cloudera Enterprise 6正式发布》和《如何在Redhat7.4安装CDH6.0》。CDH6主要集成打包了Hadoop3,包括Hadoop3的一些新特性的官方支持,比如NameNode联邦,纠删码等。纠删码可以将HDFS的存储开销降低约50%,同时与三分本策略一样,还可以保证数据的可用性。本文Fayson主要介绍纠删码的工作原理。
Fayson
2018-11-16
5.3K0
什么是HDFS?算了,告诉你也不懂。
上一篇已经讲解了「大数据入门」的相关基础概念和知识了,这篇我们来学学HDFS。如果文章有错误的地方,不妨在评论区友善指出~
Java3y
2020-03-05
4190
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券