首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

未来10年的存储创新,就被这个技术承包了

2019年,随着在NVMe技术方面的突破和演进,超大规模数据中心和高性能计算用户很快将从中受益。在后摩尔定律时期,在CPU性能增长放缓的背景下,NVMe技术以及NVMe over fabric技术的发展,将成为推动IT技术创新的新动力。当然,所有这一切背后都是有实际需求在推动。

翻开历史来看,NVMe的发展可谓是非常迅速。2014年,第一批NVMe技术方案还只是服务器上的一个驱动而已,这个驱动负责处理存储访问操作。

如今,许多超大规模数据中心,做高性能计算解决方案的厂商都在节点上测试NVMe。由于NVMe的方案是针对节点规模扩展的,这就带来很高的灵活性,同时还有非常高的性能提升优化空间。

虽然NVMe对于那些需要用到非易失性存储的应用带来了很大帮助,但是,下一阶段NVMe over fabric的带来的影响将更为深远。

以太网的带宽爆炸式增长,100GB/s还有400GB/s之类的似乎也都不远了。存储如果能用上这样的能力,在服务器看来,就像是在本地一样了。

市场上Mellanox,Pure Storage,Excelero都有类似的创新,以太网的方案整体来说都比较简单,这些创新方案的思路就是用简洁的方式来汇集存储资源,虽然是远程访问,但是看起来就像是访问本地存储一样。

降低存储网络复杂度带来的好处非常明显,它有助于打造更大规模存储集群,用更少的资源做更多的事儿。

未来,随着NVMe over fabrics成本大幅降低,NVMe将在技术方案和市场上释放更大的能量。

成本下降,这意味着就可以投入大规模使用了。超大规模数据中心由于采购量大,可以用和SATA相同的价格用上NVMe,对于一般用户来说,多花点钱用3GB/s带宽替代500MB/s的SATA也非常合适。

虽说NVMe的成本会降低,前景一片大好,不过真正想把一个新技术推向市场,起码市场上得有好几个同类方案。大家一起来教育市场,然后才有向传统存储体系架构发起挑战的资格。

NVMe化解传统存储架构的新挑战

在市场上可以看到,Excelero在研究NVMe over fabric方面的技术,Mellanox,Pure Storage还有NetApp也在研究,具体的做法都不太一样。不过,面对实际用户需求,要解决的问题会有许多相似之处。

比如,Excelero有一家欧洲的大型银行客户,这家银行需要跑SAS分析负载,依靠传统方案做一些日常分析的话大概需要四十个小时,由于速度太慢,日常性的报告不能及时提供,以至于影响了欧盟的有关规定。

在这一场景下,单单说不怕浪费,多挂点NVMe盘已经解决不了问题了。

这家银行的方案是,在GPFS上构建SAS网络集群,同一时间可能有八个节点在同一个数据集上工作,数据集是不能分割的,由于这是延迟和带宽敏感型应用,当对一天的数据进行检索的时候,对存储带宽,随机IO性能都提出了很高要求。

Excelero的方案提供的共享资源池正好解决了这一问题,降低了小IO读写的延迟,读写带宽的主要瓶颈也就是网络了。不过,生成分析报告的时间缩短到了6个小时。

Excelero的方案非常有代表性,值得借鉴,足以说明NVMe over fabric的价值点,使得用NVMe over fabric构建的远程存储提供的共享资源池,能利用上像GPFS这样的大规模并行系统。

集群存储的另一种做法是,在每一个主机上都复制一份数据集。这种做法,首先资源开销非常巨大,为了让每份数据都保持一致,所以主机互联的技术经常需要传输大量的指令,效率非常低下,集中共享的存储非常有必要。

类似的,一家名为CMA的公司正在研究用NVMe技术支持Oracle Exadata的集群方案。

NVIDIA的DGX系统能让多个GDX-1同时工作,也是一个集群系统,也有人在思考如何让GDX更好地用上NVMe的能力。

比如,金融领域有时候需要将一个工作负载分散到多台DGX-1上,有的朋友可能会马上想到DGX-1农场,DGX-1农场的问题是只能用SATA盘,如果换成NVMe的话,带宽和延迟将发生非常大的变化。

虽然DGX-2开始支持NVMe了,但是数量非常有限,只能使用机箱里提供的那有限的几块NVMe SSD。

能不能让所有的DGX-2都用到NVMe资源池,让所有的机器都自由访问共享内存呢?这也是个有趣的问题。可能不久后,NVIDIA也会推出类似的方案。

人工智能场景将成为推动

NVMe存储创新的一大动力

人工智能将是推动NVMe over fabric发展的又一大因素。人工智能技术的发展,对于那些做算法回溯测试,还有做医学成像、地理信息系统(GIS)的行业带来了很大帮助。

但是由于训练时候需要处理大量图像,这对于存储带来很大挑战,人工智能的能力受到了限制。

虽然有ResNet这样的基准测试会使用许多小的图片来做测试,让人看到一些性能表现,但在很多时候,真正用的其实有很多大图像。

比如,MRI还有卫星图像的分辨率非常大,图像大小可能是好几兆甚至几十兆,拿这些数据来做训练的话,对存储系统的延迟和带宽要求是非常高的。

在银行的账户交易系统中,也需要扩展集群来处理实时的请求,构建一个集中的资源池来应对随机访问需求。如果是一个几十TB的数据集,不可能在每个主机上复制一份数据并且及时同步数据,唯一合理的做法是搭建一个独立的存储资源池。

简单来说,NVMe之所以将获得飞速发展,核心原因还是需求推动的,那些特定工作负载,还有业务量巨大的公司都必须重新构建基础架构。

如今的IT领域,主流的创新主要来自云和超大规模数据中心领域,新技术很多时候都会在这一领域出现或者发扬光大,NVMe的发展也将随之爆发。

但因为现有IT架构的影响以及新的解决方案的成熟度,想真正在市场上看到NVMe的能力还得再等等。

可以肯定的是,NVMe将带来许多新的突破,这个突破将对IT领域影响深远,是否是影响未来十年的技术也未可知。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190722A0A7MO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券