Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Gartner 2019分布式文件存储关键能力报告解读

Gartner 2019分布式文件存储关键能力报告解读

作者头像
冬瓜哥
发布于 2019-11-26 07:42:37
发布于 2019-11-26 07:42:37
1.3K0
举报
文章被收录于专栏:大话存储大话存储

近日,Gartner发布了2019年全球分布式文件存储关键能力报告(Critical Capabilities for Distributed File Systems),Dell EMC、IBM、浪潮、华为、Qumulo、Pure Storage、Red Hat共7家全球主流厂商入围测评。

1

分布式存储高速发展 背后的趋势变化

分布式存储系统近年来的普及势如破竹,这一方面得益于分布式系统提供的高可扩展性和大规模并发特性,另一方面则得益于互联网、大数据人工智能应用的上层架构从本质上恰好需要分布式存储系统这种多节点和高并发架构,甚至干脆形成了应用和存储节点超融合的架构。这些新型的应用与传统应用部署架构完全不同,后者多为单机版应用,需要的是一个具有较强功能和性能的本地存储系统,要么使用DAS存储架构独占本地资源,或者使用传统的SAN/NAS存储系统与其它业务适度共享集中的存储资源,由于SAN采用专用的前端网络,无论是在QoS还是性能密度上,都充分保障了传统单机业务的可靠性、性能、可用性以及QoS。而如今的新型业务由于所需的并发量较大,一般普遍采用多机多节点集群化部署,在每个节点上运行一个或者多个应用实例或者说进程,多进程之间通过网络通信相互同步状态、元数据和数据,以实现任务的切割、派发、执行、结果汇总过程。而这种架构基本上与传统的HPC架构如出一辙。

另外,传统的I/O访问方式,比如经典的block addressable I/O,file byte addressable I/O已经无法满足或者正在掣肘这些新型业务。为此,新式的I/O访问方式,比如Object、stream等I/O接口也在快速发展和应用。

正因为应用架构多变,并不像传统业务那样在I/O方面完全标准化,所以派生了大量应用场景,带来的问题也是显然的,分布式存储系统需要应对这些非标准化场景,对这些场景的节点部署、网络、I/O方式、API接口等都需要进行精确评估、调优甚至二次开发适配。

分布式存储系统在硬件上几乎没有门槛,因为可以完全基于开放的标准服务器和本地SAS HBA/RAID卡,由于分布式节点规模扩展性强,每个节点只需要是瘦节点就可以了,这就避免了胖节点在JBOD上的硬件成本和软件商的管理监控成本。

在分布式核心软件上的门槛相比传统的封闭式存储系统而言也极大降低了,因为伴随着互联网、云计算、大数据等业务的助推,大量的开源分布式系统软件平台都可以用来借鉴甚至直接利用。这些软件平台包括分布式核心存储层以及外围集群管理层,前者主要负责对数据的布局决策、存储、容错、容灾等,后者则负责对整个集群中的节点进行监控和管理,比如心跳、仲裁、故障切换、节点的增删等等。

正因如此,近年来众多厂商,包括老牌传统存储厂商以及新兴厂商,都推出了各自的分布式存储系统。不得不说的是,传统存储厂商在分布式系统架构领域的确有一定的技术积累可以利用,比如传统SAN/NAS是双控架构,相当于一个双节点的集群,传统厂商在双节点集群的双活、冷备、互备、心跳、切换等方面已经非常成熟。但是,对于三节点及以上的集群,其架构相比双节点其实是有本质区别的,这就像双星系统和三体系统一样。再加上分布式系统节点基本上都是基于开放式服务器瘦节点,传统厂商更多积累在胖节点上。所以,基本可以认为传统和新兴厂商在分布式存储系统领域的起跑点是齐平的。

2

Gartner报告 提供5大场景、8大关键能力的评分

在这个大背景之下,显然有必要对各厂商的分布式存储系统的各项参数、能力、场景适配等进行梳理总结、评估。在Gartner最新《Critical Capabilities for Distributed File Systems》分析报告中,将分布式存储系统的关键能力做了总结,得出8个核心关键能力:

容量 - 数百TB甚至PB级别的容量扩展潜力

空间效率 – 支持压缩、重删、Thin Provision、自动分层的能力

平台适配性 – 与第三方软件平台的适配能力

可管理性 – 支持自动化管理、监控以及提供分析报告工具的能力

性能 – 总IOPS、带宽吞吐量、时延指标,以及在真实应用场景下的性能发挥程度

自愈能力 – 提供高可用性和数据保护的能力

多租户及安全性 – 包括细粒度访问控制、用户控制的加密、防恶意软件等

价格 – 提供优异性价比以及定价模型的能力

该报告还总结出了分布式存储系统的5个主流的应用场景:归档、备份、商用HPC、混合云大数据分析

这个划分我觉得还是比较全面的,从业务角度入手来审视分布式存储应该具有什么样的能力来支撑这些业务场景。

该报告入围了7家主流分布式存储系统厂商产品用于评估,并针对8项核心关键能力中的每一项都给出了评分,见Table 2。

其中空间效率得分最高者是DELL EMC Isilon,这也是EMC特别看重它的“有效容量”计划的一个体现。

性能以及自愈性一栏得分的前两名远超其它产品,分别是Pure Storage FlashBlade以及IBM Spectrum Scale。Pure Storage的FlashBlade得益于其专门设计的全闪存架构,性能不居首也说不过去,不过相比之下其成本和空间效率得分也是最低的,因为这两个因素与性能很大程度上是矛盾的。IBM排第二这也在意料之中,因为Spectrum Scale的内核其实是GPFS,这个文件系统可谓是历经沧桑的三朝元老了,其源自由于IBM在HPC领域的深厚积累,性能和自愈性得分最高也是理所当然,同时也可以看到,其管理性方面得分却是最低的,这或许也继承了IBM的一贯格调。

可管理性得分遥遥领先的是一个名不见经传的产品:Qumulo File Storage,我对它并不是十分了解。同时它也是价格得分最高者之一。

该报告还针对五大典型场景下针对每种能力的需求给出了权重值,见Table 1。HPC和数据分析场景下对性能有强烈需求。值得一提的是,不管是在哪个场景下,对可管理性的需求都相对较高。除了混合云场景,其他场景对容量的需求也是相对比较高的。

田忌赛马的故事告诉我们,在综合场景下,最终赢家可能并不是在某一方面非常强而其他方面孱弱的选手。Table 3告诉了我们一个事实。

根据Table 3中的综合得分得出每个典型场景下的得分前三,见下图。

图中可以发现,唯一一家在每个场景下都进入前三的产品,是浪潮AS13000分布式存储系统,拿到了1个第一,2个第二,2个第三。浪潮分布式存储系统AS13000表现突出,我觉得这可能也是个必然结果,因为浪潮很早就意识到了分布式存储场景与传统场景的本质区别并开始针对分布式存储系统的应用场景进行梳理分析,抽取业务I/O模型并落地到产品设计开发过程中。早在去年年初,浪潮就开始逐渐将梳理好的模型同时向研发和前端输送,从而为后续产品开发提供需求输入以及在前端项目实施过程中达到更高的质量和交付速度。

3

浪潮分布式存储 场景化定制

从一些公开的材料和文章中也可见浪潮在这些场景下所做的适配和优化。比如在HPC场景下,支持元数据集群、小文件聚合、RDMA技术,和AI应用对接优化等技术方案。在混合云场景下,增强可管理特性,比如标准接口S3、OpenStack插件、云备份(从私有云公有云的备份技术),一套系统提供文件、块、对象、大数据、数据库等五种数据服务等。当然,分布式文件的应用是较为广泛和成熟的。

比如,浪潮AS13000在石油勘探场景下的综合性能在某项目中超出业界平均水平约30%。

浪潮分布式存储的测试性能:写性能比业界平均水平高32%,读性能高27%

在一个典型的石油勘探场景下,在数据存储阶段,石油勘探需要将采集到的原始地震波数据统统写入分布式存储平台,存储需要提供高聚合带宽和PB级容量,满足海量数据的并发写入、存储需求。在数据解释阶段,存储需要提供高带宽,能够一次性“读出”单个文件大小超300GB的超大文件。此时的存储需求是高带宽。而在数据处理、分析阶段,石油勘探模型处理、分析产生了海量的次生小文件,存储需要通过小文件/对象聚合技术,提升海量次生小文件的并发性能。这就如同水库,先汇聚资源,达到一定蓄水量后再向下游统一输出,存储要把亿级/千万级小文件的随机写变为固定大小的数据的顺序写,提高效率。

浪潮存储研发工程师表示:“同等配置水平下,目前分布式存储业内平均水平为单节点写1.3GB/s、读1.5GB/s,这样一来16个节点的平均写性能是20.8GB/s、读性能24GB/s。对比来看,浪潮分布式存储在石油勘探项目中的性能表现,比业界平均水平高出了20%~30%。”更高的性能意味着,浪潮分布式存储平台可以帮助石油勘探项目缩短勘探开发周期、提高勘探开发成功率。

前文中也提到过,目前的新兴应用场景规模大,架构复杂,I/O模型未知,未经过充分研究总结和标准化,所以分布式存储系统厂商不得不自行针对这些场景做出适配,这个初步积累过程其实是比较痛苦的,但是度过了这个阶段之后,就会形成一些固化的精髓,正犹如传统SAN/NAS厂商对大规模机械盘的管理和行为了如指掌一样,分布式存储系统厂商也终将会在场景适配方面形成自己宝贵的经验。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大话存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
盘点分布式文件存储系统____分布式文件存储系统简介
**分布式存储:**通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。
全栈程序员站长
2022/06/28
6.4K0
盘点分布式文件存储系统____分布式文件存储系统简介
五年五次飙榜,浪潮如此自我挑战为哪般?
要我说,中国本土的存储厂商当下最强悍的主力军,应该是Inspur了。这不,浪潮这次又登顶SPC-1了。
冬瓜哥
2021/07/22
4730
中国仅有两家入选,Gartner2021《分布式文件系统和对象存储魔力象限图》究竟有什么看点?
我们看到,戴尔和IBM作为老牌存储厂商,依然没有一点意外地牢牢盘踞在魔力象限图的最右上角。
科技云报道
2022/04/16
1.4K0
中国仅有两家入选,Gartner2021《分布式文件系统和对象存储魔力象限图》究竟有什么看点?
中移动分布式存储超级大单出炉,浪潮等唱主角
近日,中国移动公布了2019年至2020年分布式块存储产品集中采购招标公告。自2017年以来,中国移动已经组织了两次分布式文件存储集采,本次集采是电信运营商行业的首次分布式块存储大规模集采,吸引了众多包括浪潮、华为等在内的十多家厂商参与投标。最终,浪潮在为期5个月的测试中率先完成测试,并且凭借过硬的产品实力,勇夺综合成绩第一。
大数据在线
2019/11/11
6090
中移动分布式存储超级大单出炉,浪潮等唱主角
Gartner:浪潮存储进入分布式存储前三
近日,权威调研机构Gartner公布2021二季度全球存储市场报告。报告显示,全球存储市场开始回暖,市场规模同比增长3.5%,其中以分布式存储为代表的第二存储市场增速最高,同比增长5.5%。全球第二存储市场,浪潮分布式存储增长强劲,市场份额保持全球前三。
大数据在线
2021/10/27
6910
难言之隐,分布式存储软硬件解耦究竟难在哪里?
说到分布式存储,我们可能都会联想到软件定义存储(Software Defined Storage,即SDS)。代表全球存储厂商的权威协会SNIA(全球网络存储工业协会)对SDS定义:软件定义存储包括管理面的标准接口和自动化,以及数据面Scale-out的块、文件和对象存储服务。 业界很多分析师和厂商都认为“SDS”应该和硬件解耦,可以部署在容器、虚拟机、标准裸金属服务器上。 但在上述SNIA发布的SDS白皮书中,SNIA并不认同这种观点,而是更关心SDS实现管理面的自动化和数据面的弹性。 分布式存储“软
云头条
2022/03/18
6660
百亿产业规模之后,中国分布式存储市场有哪些重要趋势?
过去十年里,数字经济的蓬勃发展,不仅带来了数据爆炸性增长,也让数据的重要性日渐突显。
大数据在线
2022/12/13
4220
百亿产业规模之后,中国分布式存储市场有哪些重要趋势?
分布式存储会一统存储市场吗 ?
近年来,随着云、大数据、AI、区块链等技术的发展,分布式架构在IT市场持续火热,在存储领域,分布式存储蓬勃发展。 其中在AI应用最火热的汽车自动驾驶研发领域,每个车企都需要对数百PB数据进行采集、存储、分析训练、仿真。 根据预测,到2025年全球数据将增长到175ZB,其中非结构化数据占比将超过80%,分布式存储凭借高扩展性和易管理能力,成为承载海量数据的重要选择。同时,在政府、运营商、金融等大规模云化数据中心,各大云厂商、分布式存储厂商都在积极推动分布式存储更广泛地应用,替代部分传统存储阵列。 种种迹象
云头条
2022/03/18
6260
块存储、文件存储、对象存储这三者和分布式文件存储系统的本质区别[通俗易懂]
https://blog.csdn.net/enweitech/article/details/51445087
全栈程序员站长
2022/09/01
10.6K0
开源分布式文件系统大检阅
我们的YRCloudFile是一款面向云时代的分布式文件系统,它的主要特点是支持海量小文件的高性能数据访问,对Kubernetes平台的无缝支持,混合云场景下的数据支撑。我们在开发YRCloudFile时,也会去了解业界主流的分布式文件系统,学习其优点,避免其缺点。本文讨论几个我们曾调查过的主流的分布式文件系统,它们都是开源系统,因为这样能收集到丰富的资料,能看到代码,使得了解及讨论更为清晰。
焱融科技
2020/04/02
1.8K0
开源分布式文件系统大检阅
CubeFS 进入 CNCF 孵化阶段,国产分布式存储的新里程碑!| Q推荐
CubeFS 是国内首个云原生开源分布式存储产品,2019 年开源并捐赠托管至云原生计算基金会 (CNCF),2020 年 10 月 OPPO 开始主导 CubeFS 社区运营与版本迭代,累计发布 7 个 release 版本。在 OPPO 的全力推进下,CubeFS 于 2022 年 6 月进入 CNCF 孵化阶段。 本文,我们与 CubeFS Maintainer OPPO 的何小春进行了对话,共同探讨 CubeFS 的技术演进及云原生存储技术的发展方向。 1 云原生存储技术“越来越分布式” 随着云
深度学习与Python
2023/03/29
1.1K0
CubeFS 进入 CNCF 孵化阶段,国产分布式存储的新里程碑!| Q推荐
挑战存储“不可能之三角”:用自研技术引领存储性能突破
然而,随着非结构化数据在生产业务中的广泛应用,各行各业正在经历数据量的爆炸式增长。虽然分布式存储在大众认知内具有高性价比和高扩展性,却未被赋予高性能的标签。
科技云报道
2024/01/10
3080
挑战存储“不可能之三角”:用自研技术引领存储性能突破
QingStor分布式存储,或成为青云科技上市后的新增长引擎
继青云科技(QingCloud)上市以来,旗下分布式存储品牌QingStor近日也官宣了新的品牌征程:
科技云报道
2022/04/16
4210
QingStor分布式存储,或成为青云科技上市后的新增长引擎
【重识云原生】第三章云存储第一节——分布式云存储总述
在了解什么是分布式存储之前,我们先来简单了解一下存储几十年来的大概历程。
江中散人_Jun
2022/04/11
2.4K0
【重识云原生】第三章云存储第一节——分布式云存储总述
Ceph分布式存储初步认识(一)
Ceph 是一个去中心化的分布式存储系统, 提供较好的性能、可靠性和可扩展性。 Ceph 项目最早起源于Sage就读博士期间的工作(最早的成果于 2004 年发表),并随后贡献给开源社区, 遵循 LGPL 协议 (LESSER GENERAL PUBLIC LICENSE 的简写,中文译为 “ 较宽松公共许可证 ” )。在经过了数年的发展之后,目前已得到众多云计算厂商(OpenStack 、 CloudStack 、 OpenNebula 、 Hadoop )的支持并被广泛应用。
Lansonli
2022/04/11
1.3K1
Ceph分布式存储初步认识(一)
GlusterFS分布式存储学习总结
分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源并不直接与本地节点相连,而是分布于计算网络中的一个或者多个节点的计算机上。目前意义上的分布式文件系统大多都是由多个节点计算机构成,结构上是典型的客户机/服务器模式。流行的模式是当客户机需要存储数据时,服务器指引其将数据分散的存储到多个存储节点上,以提供更快的速度,更大的容量及更好的冗余特性。 目前流行的分布式文件系统有许多,如MooseFS、FastDFS、GlusterFS、Ceph、Mogile
洗尽了浮华
2018/04/17
2.9K0
GlusterFS分布式存储学习总结
YH10:分布式存储解决方案zData
云和大数据时代的到来导致各行各业数据量的爆发,面对业务数据的日益剧增,企业的IT系统在性能、稳定性和扩展性等方面都面临前所未有的巨大挑战。如何有效应对云和大数据的浪潮去拥抱变化,成为企业迫切面临的问题。 数据驱动的时代,一切竞争的核心都会归结于IT系统的竞争,然而传统数据库系统架构面临以下困境: 1、中心化的存储系统成为I/O存取的瓶颈,扩展成本高昂 2、小型机+高端存储,成本高昂,相对比较封闭,扩展能力差。 3、复杂的系统带来部署及操作、运维和管理的复杂性 分布式存储解决方案zData 为更好地保障企业
数据和云
2018/03/07
1.7K0
YH10:分布式存储解决方案zData
分布式文件存储选型比较[通俗易懂]
在这个数据爆炸的时代,产生的数据量不断地在攀升,从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘,首先要考虑的就是海量数据的存储问题,比如Tb量级的数据。
全栈程序员站长
2022/06/28
7500
分布式文件存储选型比较[通俗易懂]
大数据开发:分布式文件存储系统简介
在分布存储式存储技术体系当中,分布式文件存储是其中的分类之一,也是大数据架构当中常常用到的。得益于Hadoop的高人气,Hadoop原生的HDFS分布式文件系统,也广泛为人所知。但是分布式文件存储系统,并非只有HDFS。今天的大数据开发分享,我们就主要来讲讲常见的分布式文件存储系统。
成都加米谷大数据
2021/01/13
1.5K0
大数据开发:分布式文件存储系统简介
刘军:18年“老兵”眼中的HPC与大数据、深度学习的融合
关注高性能计算(HPC)的朋友们不会忘记今年7月第45期全球超级计算机TOP500排名,中国国防科学技术大学研制,部署于中国广州超算中心的天河二号再次荣登榜首,连续第5次成为TOP500冠军。这还是在
CSDN技术头条
2018/02/09
1.2K0
刘军:18年“老兵”眼中的HPC与大数据、深度学习的融合
推荐阅读
相关推荐
盘点分布式文件存储系统____分布式文件存储系统简介
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档