Apache HDFS:Hadoop分布式文件系统(HDFS)提供了一种在多个机器上存储大文件的方法。 Hadoop和HDFS衍生自Google文件系统(GFS)这篇论文。在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。 使用Zookeeper,HDFS高可用性功能通过在具有热备份的主动/被动配置中提供在同一群集中运行两个冗余NameNode的选项来解决此问题。
Red Hat GlusterFS:GlusterFS是一个横向扩展的网络附加存储文件系统。 GlusterFS最初由Gluster,Inc.开发,然后由Red Hat公司在2011年购买Gluster后开发。2012年6月,红帽存储服务器被宣布为商业支持的GlusterFS与Red Hat Enterprise Linux的集成。 Gluster文件系统,现在称为红帽存储服务器。
Quantcast File System QFS:QFS是用于大规模MapReduce或其他批处理工作负载的开源的分布式文件系统软件包。它被设计为Apache Hadoop的HDFS的替代,旨在为大规模处理集群提供更好的性能和成本效率。它是用C ++编写的,并具有固定占用内存管理。 QFS使用Reed-Solomon纠错作为确保可靠地访问数据的方法。Reed-Solomon编码非常广泛地用于大容量存储系统中以校正与介质缺陷相关的突发错误。 QFS只需要1.5倍的原始容量,而不是像HDFS那样存储每个文件的三个完整版本,因此需要三倍的存储空间,因为它在九个不同的磁盘驱动器上分割数据。
Ceph Filesystem:Ceph是一个自由软件存储平台,旨在从单个分布式计算机集群显示对象,块和文件存储。 Ceph的主要目标是完全分布式,没有单点故障,可扩展到exabyte级别,并可自由使用。数据被复制,使其可容错。
Lustre file system:Lustre文件系统是一种高性能分布式文件系统,适用于更大的网络和高可用性环境。传统上,Lustre被配置为管理存储区域网络(SAN)内的远程数据存储磁盘设备,该磁盘设备是通过小型计算机系统接口(SCSI)协议进行通信的两个或更多个远程连接的磁盘设备。这包括光纤通道,以太网光纤通道(FCoE),串行连接SCSI(SAS)甚至iSCSI。
使用Hadoop HDFS,该软件需要一个专用的计算机集群在其上运行。但是,为了其他目的运行高性能计算集群的人通常不运行HDFS,这使他们有一堆计算能力,任务几乎可以从一点map减少受益,没有办法把这个权力运行Hadoop。英特尔注意到了这一点,并且在发布的Hadoop发行版本2.5中增加了对Lustre的支持:用于ApacheHadoop *软件的英特尔®HPC发行版,这是一个新的产品,结合英特尔的Apache Hadoop软件分发与英特尔® Lustre企业版软件。这是Apache Hadoop的唯一分布,它与Lustre集成,这是世界上许多最快的超级计算机使用的并行文件系统
Alluxio:Alluxio是世界上第一个以存储为中心的虚拟分布式存储系统,统一了数据访问和桥接计算框架和底层存储系统。应用程序只需要连接到Alluxio以访问存储在任何底层存储系统中的数据。此外,Alluxio的以内存为中心的架构使数据访问的数量级比现有解决方案更快。
在大数据生态系统中,Alluxio位于计算框架或作业之间,如Apache Spark,Apache MapReduce或Apache Flink以及各种存储系统,如Amazon S3,OpenStack Swift,GlusterFS,HDFS,Ceph或OSS。 Alluxio为栈带来显着的性能提升;例如,百度使用Alluxio将数据分析性能提高了30倍。除了性能,Alluxio将新的工作负载与存储在传统存储系统中的数据相连接。用户可以使用其独立集群模式运行Alluxio,例如在Amazon EC2上运行Alluxio,或者使用Apache Mesos或Apache Yarn启动Alluxio。
Alluxio是Hadoop兼容的。这意味着现有的Spark和MapReduce程序可以在Alluxio之上运行,而无需任何代码更改。该项目是开源的(Apache License 2.0),并部署在多个公司。它是增长最快的开源项目之一。Alluxio拥有不到三年的开源历史,吸引了来自阿里巴巴,Alluxio,百度,CMU,IBM,英特尔,NJU,红帽,加州大学伯克利和雅虎等超过50家机构的160多位参与者。该项目是Berkeley数据分析堆栈(BDAS)的存储层,也是Fedora分发版的一部分。
GridGain:GridGain是在Apache 2.0下许可的开源项目。此平台的主要部分之一是内存中ApacheHadoop加速器,其目的是通过将数据和计算都加入到内存中来加速HDFS和Map / Reduce。这项工作是使用GGFS - Hadoop兼容的内存文件系统完成的。对于I / O密集型作业GridGain GGFS提供的性能比标准HDFS快100倍。解释DmitriySetrakyan从GridGain系统谈论GGFS关于Tachyon:
GGFS允许从底层HDFS或任何其他符合Hadoop的文件系统读取和写入,零代码更改。基本上GGFS完全从集成中移除ETL步骤。
GGFS能够选择和选择什么文件夹保留在内存中,什么文件夹保留在磁盘上,以及什么文件夹同步或异步同步底层(HD)FS。
GridGain正在开发添加本地MapReduce组件,这将提供本机完整的Hadoop集成,而不需要更改API,比如Spark目前强制您这样做。基本上GridGain MR + GGFS将允许以插件方式完全或部分内存中带入Hadoop,而不需要任何API更改。
XtreemFS:XtreemFS是一个通用存储系统,涵盖单个部署中的大多数存储需求。 它是开源的,不需要特殊的硬件或内核模块,可以安装在Linux,Windows和OS X上。XtreemFS运行分布式,通过复制提供弹性。 XtreemFS卷可以通过FUSE组件访问,该组件提供与POSIX类似的语义的正常文件交互。 此外,包括Hadoops文件系统接口的实现,这使得XtreemFS可用于Hadoop,Flink和Spark。 XtreemFS根据新的BSD许可证授权。 XtreemFS项目由柏林Zuse学院开发。 该项目的开发由欧盟委员会自2006年以来的资助,授予协议号FP6-033576,FP7-ICT-257438和FP7-318521,以及德国项目MoSGrid,"First We Take Berlin",FFMK, GeoMultiSens和BBDC。