作为一个服务提供者,高可用是一个不得不说的话题,那么今天我们就来聊一聊 HDFS 的高可用,我们主要从以下几点来简单说一说:
要聊高可用,我们先来了解下以下两个概念:
我们知道 HDFS 的架构主要是由 NameNode 和 DataNode 组成,其中DataNode宕机是不会对集群正常运行造成什么影响的,当然,不能是灾难性的宕机,一下宕机一大片那种。所以决定 HDFS 高可用的就是 NameNode的高可用了,在 Hadoop 1.0 之前,NameNode也是一直存在 SPOF(单点故障)的,为此也是衍生了一系列的高可用方案。
这个问题放在现在来说,其实没太多好说的了,HDFS 从2.x开始就已经支持自己的 HA 方案了,这不是我们的重点,我们今天主要谈谈曾经为了 HDFS 的高可用 出现的一些方案吧。。。这里需要说明的一点是,HDFS的高可用主要还是针对其 元数据 的高可用。
缺点:
缺点