前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【HDFS】分布式文件系统HDFS

【HDFS】分布式文件系统HDFS

作者头像
十里桃花舞丶
发布2021-09-10 11:16:45
5000
发布2021-09-10 11:16:45
举报
文章被收录于专栏:桥路_大数据桥路_大数据

分布式文件系统HDFS

HDFS简介

什么是HDFS?

HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。它是2003年10月Google发表的GFS(Google File System)论文的开源实现,之后成为Apache Hadoop的核心子项目,用于解决海量数据存储问题。它在开源大数据技术体系中,地位无可替代,到现在为止,依然是主流的大数据存储选型。

img
img

设计目标

HDFS的设计目标有:

  1. 可以运行在大量廉价商用机器上;因此硬件错误是常态,所以HDFS提供容错机制,来保证集群的安全性与数据的可靠性。
  2. 简单一致性模型:一次写入多次读取,支持追加,不允许修改,保证数据一致性。因为HDFS在数据存储时,会使用多副本机制保证数据的安全性;如果开放修改功能,首先会导致随机修改的出现,这在海量数据的分布式场景下无异是灾难,其次因为多副本的原因,数据修改后,其它副本的数据也一定要进行修改,从而保证数据一致性,这更加重了集群的负担。
  3. 流式数据访问:批量读而非随机读,关注吞吐量而非时间;HDFS在设计时就是为了海量数据的存储而生,并且用于支持海量数据的离线批处理,而在离线批处理场景中
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-08-18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分布式文件系统HDFS
    • HDFS简介
      • 什么是HDFS?
      • 设计目标
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档