HPC存储IO500测试分析:这结果合理吗?

适逢一年一度的全球超算(HPC)大会期间,看到有朋友撰写了IO500存储排行榜相关的文章,我也下载了数据表简单学习下,本文就给大家分享下收获体会。

下面我是扩大到60

套HPC存储来统计分析

首先,IO500测试的得分应该是由带宽(GiB/s)和每秒操作数(kIOP/s)计算而来。当前我下载到的完整数据表格(链接如下)中并没有500套系统的成绩,而是60多套,估计是在参加者还不够多的情况下先借用TOP500的命名风格。

https://www.vi4io.org/lib/exe/fetch.php?tok=ee54aa&media=https%3A%2F%2Fwww.vi4io.org%2Fassets%2Fio500%2F2018-11%2Fdata.csv

在这份由TOP25套扩大到TOP60的参测系统名单中,Dell(Dell EMC)占据25套,就像友人所说的那样,至少是代表积极参与;套数排第二的DDN为10套;剩下的IBM和希捷各5套、Cray 4套、Google 3套…

上面我总结这个图表应该也有一定参考价值。按照文件系统来分,61套参测存储中Lustre以21套排名第一,紧接着就是BeeGFS的17套,然后IBMSpectrum Scale(GPFS)有9套,Cray的DataWarp、以及OrangeFS各有3套,DDN IME、CephFS和NFS都是2套。

以Dell为例,25套参测系统中有6套Lustre,16套BeeGFS和3套OrangeFS。后面2种新兴的开源HPC文件系统,在这个榜单种几乎都是Dell贡献的?而据我了解DellEMC在国内应该是主推Lustre和Isilon,也许和客户群偏保守一些有关吧。

至于元数据以及存储节点之间的互连,我一共看到43套系统的信息。InfiniBand接近占据半壁江山,其中56Gbps的FDR最多达到17套,还有3套EDR 100Gbps和1套HDR 200Gbps;各种以太网一共15套,这里面我没按速率来分是因为有些没标明,除了1套40Gb和2套16Gb之外我看还是10GbE比较多。

余下的就是5套Intel OmniPath(OPA)和2套Cray Aries。我记得除了从QLogic收购IB业务之外,Cray也把一部分HPC互连技术卖给了Intel。

下面看看性能,以及决定性能的因素。

高性能计算存储IOP/s

排名分析

按照经验,文件系统的OPS(每秒操作数)主要取决于元数据性能,因此往往和md元数据节点数量和存储设备性能有直接关系。在这里我特别先关注了元数据节点数量,所以除了kIOP/s排名前8位的,另外把2套CephFS也列进来了。

IO500我觉得在统计存储系统特性时还欠缺一些分类。比如IBM ESS是对称分布式文件系统的GPFS吧?154个存储服务器上应该都有元数据;至于CephFS,MDS元数据节点达到72个应该说不少了。

至于“md存储设备”,有可能是每节点(节点对)上的部分或者全部驱动器;也可能是后端存储阵列映射给MDS元数据服务器的LUN(MDT),因此直接从数量上来评价性能似乎不太合适。

补充一点,目前用SSD放HPC存储元数据已经相当普遍。

注:ONRL

——美国能源部橡树岭国家实验室

根据IBM Summit的资料,其77节点应该是指Power9 HA服务器对,一共就是154台服务器;每对服务器共享连接4个4U 106盘JBOD,其中包括104个NLSAS HDD和2个NVMe SSD(4个JBOD中一共有2个NVMe用于系统盘?)。

我猜测NVMe SSD应该被用于元数据加速?但从IBM提交给IO500的信息来看,应该是每块数据盘上都有GPFS文件系统的元数据。

由于IBM的IO500测试高达152万IOPS,我看有同行朋友认为是“在文件系统客户端采用了某种激进的元数据缓存机制”,事实上好像并非如此。

根据官方文档中给出的性能指标,IBM给ORNL的Summit聚合读/写带宽可达上TB/s水平。在HPC存储方面我只是个初级爱好者,一直很佩服Spectrum Scale中国研发经理,有GPFS老父亲之称的冯硕老师。

但同时我还看到,在IO500测试的带宽结果中,Summit的表现似乎没有那么好?

高性能计算存储带宽(GiB/s

)排名分析

上表我按顺序列出了带宽测试排名前10的系统,DDN IME和Cray DataWarp明显表现较好,我在网上看IME(Infinite Memory Engine)应该是用NVMe全闪存服务器节点作为HPC存储前端的大容量缓存层。

在这里我觉得IBM GPFS的发挥似乎不太正常?因为除了一套测得88.2GiB/s,还有一套Summit只测到9.84GiB/s,对比前面IBM自己测出的性能就比较奇怪了。

因此,我初步认为IO500的带宽测试可能不够全面反映实际应用水平,或者不排除有的厂商做了优化?不知大家怎么看。

尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage

历史文章汇总:http://chuansong.me/account/huangliang_storage

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181117B09HSX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券