Hadoop分布式文件系统(HDFS——Hadoop Distributed File System hadoop) 是指被设计成适合运行在 通用硬件(commodity hardware) 上的分布式文件系统(Distributed File System)。
分布式文件系统包括特征:
分布式存储系统由对象存储、文件系统、块存储、数据库组成
HDFS功能特性:
fsimage
EditLog
数据块信息维护
数据放置策略
按方式一存放,如果单机掉线,则无法获取到任何数据。
数据块的硬盘存放
启动扫盘
情景:文件写了一半,client自己挂掉了。可能产生的问题: 副本不一致、Lease无法释放;
租约(Lease) :client要修改一个文件时,需要通过NameNode上锁,这个锁就是租约。
解决办法:Lease Recovery
情景:文件写入过程中,DataNode侧出现异常挂掉了
异常出现的时机:创建连接时、数据传输时、complete阶段
解决办法:Pipeline Recovery
情景:读取文件的过程中,DataNode侧出现异常挂掉了
解决办法:节点Failover
Balancer:均衡DataNode的容量
Mover:确保副本放置符合策略要求
可观测性设施:指标埋点、数据采集、访问日志、数据分析
运维体系建设:运维操作需要平台化、NameNode操作复杂、DataNode机器规模庞大、组件控制面API