首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI I/O墙:美光PCIe Gen6存储

AI I/O墙:美光PCIe Gen6存储

作者头像
数据存储前沿技术
发布2025-12-25 14:36:52
发布2025-12-25 14:36:52
1240
举报

阅读收获

  • 识别I/O墙转移:掌握算力与PCIe失衡规律,优先评估GPU直通(BaM)架构,避免CPU瓶颈闲置算力。
  • 选型PCIe Gen6 SSD:9000系列指导AI高IOPS场景部署,结合Broadcom/NVIDIA生态,实现8600万IOPS系统级性能。
  • 优化TCO以能效为王:7600系列经验用于主流AI负载,平衡电力预算,提升GB/s per Watt2.5倍。

全文概览

在AI算力爆炸式增长的当下,GPU FLOPS飙升37.5倍,而PCIe带宽仅增8倍,I/O墙已成为系统瓶颈——强大GPU“饿肚子”,数据传输跟不上计算速度。这不仅仅是带宽问题,更是架构变革的信号:传统CPU主导I/O已不堪重负,AI训练/推理亟需高速本地存储“喂饱”GPU。

美光洞察此痛点,推出PCIe Gen6 SSD产品线:9000系列提供27GB/s带宽与540万IOPS,支持GPU发起存储(BaM),绕过CPU直通数据;7600系列MLPerf认证,能效比对手高1.8-2.5倍,优化TCO;6600系列E3.S外形达122TB/盘,单柜88.5PB,颠覆数据湖形态。

👉 划线高亮 观点批注


高性能存储对于AI训练和推理正变得至关重要
高性能存储对于AI训练和推理正变得至关重要

高性能存储对于AI训练和推理正变得至关重要

揭示了当前AI硬件架构中的 "I/O墙"(I/O Wall)或带宽瓶颈问题,并以此论证高性能存储的必要性:

  1. 算力与带宽发展的严重失衡: 图片通过对比清晰地展示了计算能力(GPU FLOPS)的指数级爆发(增长37.5倍)远远甩开了数据传输通道(PCIe带宽)的线性增长(仅增长8倍)。
  2. 瓶颈转移: 随着GPU处理数据的速度远超数据通过PCIe总线传输给它的速度,系统瓶颈正从"计算"向"数据传输(I/O)"转移。
  3. 对存储系统的挑战: 为了缓解这种带宽不足带来的算力闲置问题,AI系统迫切需要更高速的本地存储和内存技术来填补这一鸿沟,确保数据能及时“喂饱”强大的GPU。这也是美光作为存储厂商强调其产品价值的技术背景。

数据中心存储产品
数据中心存储产品

数据中心存储产品

展示了美光如何通过细分产品线来应对数据中心多样化的需求,尤其是针对AI时代的布局:

  1. 明确的市场细分策略: 美光将SSD产品线清晰地划分为"高性能(AI/混合负载)"、"主流(通用计算)"和"大容量(存储密度/CDN)"三个维度,帮助客户根据业务需求(是追求IOPS还是追求每TB成本)进行选择。
  2. PCIe Gen6 技术的抢先布局: 最关键的信息在于9000系列明确标注支持 PCIe Gen6。结合第一张图关于"AI算力增长快于带宽"的背景,这表明美光正在通过推出Gen6 SSD来解决带宽瓶颈问题,以匹配NVIDIA Blackwell等下一代AI芯片的I/O速度。
  3. 容量与性能的平衡:
    • 性能端: 9000系列虽然容量(30.72TB)不是最大,但通过PCIe Gen6提供极致速度,服务于AI训练等对延迟敏感的场景。
    • 容量端: 6000系列通过引入QLC技术和E1.L外形,专注于提升存储密度(60TB+),服务于数据湖、对象存储等对成本敏感的海量数据场景。

数据中心超高性能型

GPU作为存储发起者
GPU作为存储发起者

GPU作为存储发起者

核心观点是重新定义存储I/O的控制权,以适应AI负载的极端需求:

  1. 痛点:CPU是高并发I/O的瓶颈。 随着SSD速度越来越快(如PCIe Gen5/Gen6),传统的由CPU处理中断和提交I/O请求的方式已经无法扩展。要填满高速SSD的带宽,会消耗掉几乎所有的CPU算力。
  2. 解决方案:将存储控制权移交GPU。 利用GPU的大规模并行计算能力,不仅让数据绕过CPU(如GDS),更进一步让控制指令也绕过CPU(即GPU Initiated Storage / BaM)
  3. 技术演进:
    • 阶段1 (GDS): 数据直通,控制仍依赖CPU。
    • 阶段2 (BaM/SCADA): 全路径直通。GPU自己生成NVMe队列请求,直接读取SSD。
  4. 对SSD的要求: 这种架构意味着SSD将直接承受来自GPU数万个线程的"轰炸",因此SSD不仅需要高带宽,更需要极高的随机读取性能(IOPS)和低延迟。

高性能存储的下一个制高点是围绕加速卡的IO调度,传统的分布式存储将逐渐退化为温数据层的存储单元,KVCache、向量数据库等有召回价值的数据将依赖新的存储层。


Micron 9650在真实的高性能计算环境下的初步测试结果
Micron 9650在真实的高性能计算环境下的初步测试结果

Micron 9650在真实的高性能计算环境下的初步测试结果

PCIe Gen6 SSD + GPU直通架构 的性能:

  1. Micron 9650 的性能确认: 这款SSD是真正在跑PCIe Gen6速度的产品。单盘 27GB/s 的带宽和 540万 IOPS 的性能,使其成为当前业界性能最强的SSD之一。
  2. 验证了"GPU发起存储"的可行性与必要性: 只有通过BaM架构(绕过CPU),系统才能在20块盘上跑出 8600万 IOPS。如果用传统CPU模式,CPU核心早就饱和了。这证明了上一张PPT提出的架构变革是能够落地的。
  3. 生态系统的成熟度: 这种性能不是美光一家能做到的,PPT展示了它与 Broadcom(交换机)、Astera Labs(Retimer/交换机)、H3 Platform(服务器机箱)以及 NVIDIA(GPU)的紧密集成。这意味着PCIe Gen6的整个硬件生态链已经准备就绪。

数据中心通用型

Micron 7400/7500 的下一代——Micron 7600能效比
Micron 7400/7500 的下一代——Micron 7600能效比

Micron 7400/7500 的下一代——Micron 7600能效比

Micron 7600 作为数据中心主流AI存储的“能效之王”地位:

  1. 从“唯速度论”转向“TCO(总拥有成本)导向”: 对于大规模部署的主流数据中心,极致的PCIe Gen6速度(如9000系列)可能太贵且功耗太高。Micron 7600展示了另一种价值——在提供足够好的AI性能(MLPerf认证)的同时,大幅降低电力成本
  2. 极致的能效比(Efficiency): 图片视觉冲击力最强的部分是紫色的“Efficiency”柱子。在所有测试中,美光7600的每瓦性能(GB/s per Watt)都大幅碾压竞争对手(达到1.8倍至2.5倍)。这意味着在同样的电力预算下,客户可以部署更多的存储,或者在同样的性能下节省大量的电费和散热成本。
  3. 多场景适应性: 通过展示图像分类、科学计算和医学影像三个截然不同的领域,证明了7600在广泛的AI应用中都能保持这种“高能效”特性,不是“偏科生”。

数据中心容量型

美光6600 | 存储密度
美光6600 | 存储密度

美光6600 | 存储密度

E3.S 外形规格 + 超大容量 SSD (122TB) 将彻底改变数据中心的物理形态,并加速淘汰HDD:

  1. 外形规格的胜利 (E3.S vs U.2): 这是非常关键的技术细节。美光并没有仅仅强调“我有122TB的盘”(因为竞品Solidigm也有),而是强调“我用 E3.S 做到了122TB”。这使得在2U服务器中,美光的部署密度比竞品高出67%。
  2. 单机柜近 90PB 的恐怖密度: 图片展示了单机柜 88.5 PB 的存储能力。这对于AI时代的数据湖(Data Lakes)大模型检查点(Checkpoints) 存储至关重要。AI训练产生的数据量是海量的,能够在一个机柜内解决近100PB的数据,可以极大地简化网络拓扑和降低延迟。
  3. 对 HDD 的降维打击: 通过 3.4倍的机柜整合率,美光试图证明,尽管SSD单盘价格高于HDD,但在系统层级(考虑机柜租金、电力、维护),使用大容量SSD已经比使用36TB的顶配HDD更具优势。这是全闪存数据中心(All-Flash Data Center)愿景的有力支撑。

延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  1. GPU发起存储(BaM)将如何重塑传统分布式存储在AI KVCache/向量数据库中的角色?
  2. 在电力成本飙升的时代,能效比是否会成为PCIe Gen6 SSD选型的首要指标,而非纯速度?
  3. E3.S 122TB SSD真能彻底淘汰HDD?系统级TCO计算中存在哪些隐形成本风险?

报告标题:Real-world AI workloads need fast, efficient storage[1]

Notice:Human's prompt, Datasets by Gemini-3-Pro

#FMS25 #Gen6-eSSD

---【本文完】---

👇阅读原文,搜索🔍更多历史文章。


  1. https://files.futurememorystorage.com/proceedings/2025/20250807_AIML-302-1_Meredith-2025-08-04-19.11.56.pdf ↩
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据中心超高性能型
  • 数据中心通用型
  • 数据中心容量型
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档