Apache Hadoop是一款用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个允许使用简单的编程模型跨计算机集群分布式处理大型数据集的框架。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。
Hadoop本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
Hadoop框架包括以下四个模块:
最近在官方首页出现了一个新的模块Hadoop Ozone,其功能是提供Hadoop的对象存储。目前处于alpha版本,docs文档中暂未提及。