首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >GPU存储I/O瓶颈:三星AiSiO如何破局?

GPU存储I/O瓶颈:三星AiSiO如何破局?

作者头像
数据存储前沿技术
发布2025-12-21 14:24:09
发布2025-12-21 14:24:09
680
举报

阅读收获

  • 深入理解AI/GPU存储I/O瓶颈:您将清晰认识到GPU计算中数据访问的深层挑战,包括硬件层面的PCIe拓扑依赖性、4K I/O悬崖,以及软件层面的CPU中心化文件系统所造成的性能鸿沟。
  • 掌握AiSiO核心技术原理:了解三星AiSiO如何通过将文件系统关键逻辑(如路径解析)卸载到GPU上,并利用GPU原生NVMe驱动发起I/O请求,从而实现数据从SSD到GPU的“零拷贝”直达,兼顾高性能与文件语义。
  • 洞察“Soft DPU”的架构取舍与价值:对比AiSiO(Soft DPU on GPU)与物理DPU方案,理解其在硬件成本、数据路径、资源消耗、功能范围及生态隔离等方面的差异,并认识AiSiO对高性能SSD厂商在释放硬件潜能、软件定义差异化方面的战略机遇。
  • 预见未来生态挑战与标准化需求:探讨AiSiO这类技术从特定解决方案走向行业标准所面临的安全性(文件锁、租约)和标准化(通用DMA API)挑战,以及Linux内核社区和硬件行业在其中扮演的关键角色。

全文概览

在AI大模型和高性能计算(HPC)的浪潮下,GPU作为算力核心,其惊人的计算能力正面临一个日益凸显的瓶颈:数据I/O效率低下。您的GPU是否也常常处于“饥饿”状态,苦苦等待数据投喂?传统的存储架构中,数据从相对缓慢的NAND SSD到极速的GPU HBM内存,必须经历CPU的“反弹”(CPU Bouncing),这不仅引入了高延迟,还白白消耗了宝贵的CPU周期和DDR内存带宽。更深层次的挑战在于,现有的文件系统软件栈是围绕CPU设计的,使得GPU难以在不牺牲文件语义的前提下,直接、高效地访问数据。这迫使开发者在“极致性能”与“编程易用性”之间做出艰难抉择。本文将深入剖析这一核心矛盾,并介绍三星AiSiO技术如何通过创新架构,为AI时代的GPU存储I/O瓶颈提供一个两全其美的解决方案。

👉 划线高亮 观点批注


系统架构:背景
系统架构:背景

系统架构:背景

PPT通过展示一个典型的现代服务器架构,深刻地揭示了高性能计算(特别是AI/GPU计算)中的核心I/O瓶颈

核心观点是:系统内部存在严重的性能失配。

  1. GPU是“野兽”,它拥有10万+的并发线程和速度极快的HBM(高带宽内存)。
  2. 数据存储在相对慢得多的NAND SSD上。
  3. 性能鸿沟: NAND < DDR < HBM 这个带宽不等式是关键。GPU消耗数据(HBM)的速度远远快于CPU内存(DDR),而CPU内存又远远快于数据来源(NAND)。
  4. 架构瓶颈: 右侧的架构图显示,在传统架构中,数据从SSD到GPU必须经过CPU及其DDR内存(这个路径被称为“CPU Bouncing”或“CPU反弹”)。这不仅增加了数据延迟,而且占用了宝贵的CPU周期和DDR内存带宽,使最慢的NAND存储成为了整个系统的瓶颈,导致GPU这只“野兽”经常处于“饥饿”(等待数据)状态。

挑战:数据访问延迟 硬件层面
挑战:数据访问延迟 硬件层面

挑战:数据访问延迟 硬件层面

PPT通过将性能图表与架构图并置,揭示了当前硬件(HW)实现P2P(点对点)数据传输(如GPUDirect Storage)的两个核心挑战

  1. PCIe拓扑依赖性 (Topology Dependence):
    • 对比蓝色路径(GPU0的高IOPS)和黄色路径(GPU1的低IOPS)可以得出结论:P2P的性能高度依赖于硬件拓扑
    • 当GPU和SSD位于同一个PCIe交换机下时(如GPU0),P2P效率很高。
    • 当它们位于不同PCIe交换机下时(如GPU1),数据流必须绕道CPU的Root Port,导致性能大幅下降。
  2. I/O大小的“4K悬崖” (The 4K Cliff):
    • 左侧图表显示了第二个更严峻的挑战:P2P传输对I/O大小极其敏感
    • 当I/O请求的大小超过4096字节(4KB)时,即使是最高效的本地P2P路径(GPU0),性能也会急剧恶化。
    • 4K这个数字强烈暗示了这与系统的内存页面大小(Memory Page Size) 有关。大于一个内存页的P2P传输可能会触发不同的、效率低下的硬件路径,或者需要软件(驱动程序)进行复杂的I/O拆分和管理,从而导致IOPS性能“悬崖式”下跌。

挑战:基于CPU文件语义访问
挑战:基于CPU文件语义访问

挑战:基于CPU文件语义访问

PPT的核心观点是:传统的数据I/O软件栈(特别是文件系统)是围绕CPU设计的,这强制数据必须流经CPU,从而造成了严重的性能瓶颈,阻碍了GPU的数据供给。

  1. 软件栈的CPU中心性: 左侧列出的所有软件层(数据库查询引擎、文件系统逻辑、块设备驱动)全部运行在CPU之上
  2. 文件系统的角色: 当应用程序请求一个文件时,是CPU上的文件系统负责查找元数据、将文件名解析为物理块地址、从SSD读取这些块到CPU的DDR内存(Page Cache)中。
  3. CPU反弹瓶颈: 如右图所示,数据随后必须由CPU再次复制,跨越PCIe总线,从DDR内存发送到GPU的HBM内存。这个“SSD->CPU->GPU”的两步过程(I/O + 内存拷贝)延迟高、效率低,并且占用了宝贵的CPU周期和DDR内存带宽
  4. 软件与硬件的冲突: 上一张PPT(HW挑战)展示了P2P(SSD->GPU)路径虽然快,但有硬件限制。而这张PPT(SW挑战)则揭示了更根本的问题:即使硬件支持P2P,现有的软件栈(尤其是文件系统)也无法利用它。使用P2P(如GPUDirect Storage)意味着必须绕过(Bypass)文件系统,直接操作裸块(Block),但这会破坏文件语义

这张PPT明确了GPU 消耗数据所面临的核心软件挑战:如何在不经过CPU反弹(以获得高性能)的前提下,让GPU依然能够通过文件系统(如open, read)来访问数据?


现有技术的现状
现有技术的现状

现有技术的现状

PPT的核心观点是:当前的所有技术方案都存在根本性的缺陷,迫使开发者在“性能”和“易用性(文件语义)”之间做出痛苦的选择。

  1. 鱼与熊掌不可兼得:
    • 如果选择GDS (GPUDirect Storage):可以保留文件系统(易于编程和集成),但必须接受“不佳”的性能(图表显示仅约1.8 GB/s),GPU依然处于“饥饿”状态。
    • 如果选择SPDK或BaM:可以获得接近硬件极限的“最佳性能”(图表显示约6+ GB/s),但必须彻底放弃文件语义,重写应用程序以适应复杂的裸块(block)编程,这违背了演讲的初衷。
  2. 性能稳定性挑战: 图表还暴露了,即便是追求高性能的BaM方案,在处理大I/O(>= 1MiB)时也会出现性能崩溃,这表明实现稳定、高效的GPU P2P(点对点)I/O路径在技术上极具挑战性。

PPT清晰地指出了当前技术方案的空白:市场亟需一种新技术,它既能提供SPDK级别的“最佳性能”,又能同时“保持文件语义”。


PPT是解决方案的核心展示页。它正式推出了名为 AiSiO 的新技术,并将其定位为解决“性能”与“文件语义”矛盾的理想方案。

AiSiO的核心价值主张是“鱼与熊掌兼得”:

  1. 它“支持文件操作”,提供了GDS方案的易用性,开发者无需为裸块(block)访问重写应用。
  2. 它提供了接近SPDK/BaM的“最佳性能”,比GDS有近4倍的性能提升(在特定负载下),从而真正“喂饱”GPU。

PPT还透露了AiSiO的关键实现思路:通过在GPU上实现计算内核(Compute-kernel)(例如一个GPU原生的NVMe驱动程序),将I/O和数据处理路径从CPU卸载(offload)到GPU上,从而绕过了CPU瓶颈,实现了高性能的文件I/O。

===

  • 接近BaM的性能:说明AiSiO的性能目标是对标BaM(高性能但无文件语义的方案)。
  • 使用GDS仅能达到BaM性能的22.1%:量化了GDS的性能短板。
  • 使用AiSiO可达到BaM性能的88.5%:这是关键的性能声明,表明AiSiO的性能已非常接近裸块(block)方案。

Note

通过GPU实现数据直接方案的IO设计,去年12月曾整理过 NVIDIA:GPU作为数据访问引擎的计算架构设计,在这篇文章中Nvidia 阐述了其 BaM 和 SCADA 的顶层设计理念,对于在cuda内核上实现高效数据访问提供了性能参考。

Samsung的 AiSiO 方案可以理解成与SCADA一脉相承,从独立存储厂商的角度,AiSiO 方案需要更多依赖 Linux 社区、加速卡内核与NVMe 功能集成,方案是有吸引力的,但核心关键点在于生态集成度。


PPT详细揭示了AiSiO架构。AiSiO的核心创新是将文件系统的关键逻辑(路径解析)从CPU“卸载”到了GPU上运行。

  1. 实现“文件语义”: 通过在GPU上集成一个XFS文件系统库 (xaf),AiSiO使得GPU能够自己理解文件系统,将文件路径翻译成物理块地址。
  2. 实现“高性能” (Accelerator Initiated IO): 因为GPU自己知道了去哪里读数据,它就可以利用 SPDK / xNVMe 这样的用户态驱动自己发起I/O请求
  3. 实现“零拷贝” (P2P): 数据流(SSD -> GPU)完全绕过了CPU,消除了“CPU反弹”瓶颈,从而实现了接近裸块(BaM)的性能。

AiSiO的本质是一种“文件系统卸载”(Filesystem Offload)技术,它使GPU从一个被动的数据消费者(等待CPU喂数据)转变为一个主动的数据发起者(自己获取文件数据)。

===

与依赖物理DPU (Physical DPU) / SmartNIC 硬件的方案相比,AiSiO这种“Soft DPU”方案在架构取舍上有着鲜明的特点。

对比维度

AiSiO (Soft DPU on GPU)

物理 DPU (Physical DPU Card)

核心理念

计算中心:利用GPU的计算能力来拉取数据

基础设置中心:将基础设施从主机中卸载出去

硬件成本

零(纯软件)

高(昂贵的额外硬件)

数据路径

极致(1跳):SSD -> GPU

较长(2跳):SSD -> DPU -> GPU

资源消耗

占用GPU资源(计算、HBM)

零主机资源消耗(有自己的ARM核和内存)

功能范围

专业化(仅XFS文件I/O卸载)

通用化(网络、存储、安全、虚拟化)

生态/隔离

较弱(需协同、绑定XFS、软隔离)

强(标准接口、文件系统无关、硬隔离)


AiSiO技术成功地在“高性能”和“文件语义”之间实现了两全其美

与上一张PPT(展示I/O大小对性能影响的线图)不同,这张PPT通过一个柱状图提供了更具说服力的应用级证据

  1. AiSiO在真实负载下表现出色: 无论是在AI训练(ImageNet,海量小文件)还是数据分析/媒体(大文件或中型文件)场景下,AiSiO(绿色柱)的性能都始终保持在 2600-2900+ MiB/s 的高位。
  2. 性能远超GDS: AiSiO的性能(约 2900 MiB/s)是GDS(711 MiB/s)的约3.9到4.1倍,极大地缓解了GPU的“饥饿”问题。
  3. 性能接近裸块(BaM): AiSiO在支持完整文件语义的前提下,性能达到了裸块访问(BaM,3208 MiB/s)的83%至91%,成功“缩小了差距”。

PPT总结了将AiSiO这类“GPU卸载文件I/O”技术从一个(三星的)特定解决方案推向行业标准所面临的生态挑战和需求。

核心观点是: 为了让这种新技术真正普及并保证安全,不能只靠三星一家公司,必须得到Linux内核社区和整个硬件行业(尤其是其他加速器厂商)的支持。

关键需求有两点:

  1. 安全性(Safety): 当CPU和GPU(通过AiSiO这样的技术)同时访问同一个文件系统时,必须有一种机制来协调它们的操作,以防止数据损坏。例如,当GPU正在读取一个文件时,CPU不能同时删除或修改它。文件锁 (File-locking)租约 (Leases) 是Linux中用于管理并发访问、确保数据一致性和安全性的标准机制。
  2. 标准化(Standardization): AiSiO的核心是让NVMe SSD通过DMA(直接内存访问)将数据零拷贝 (Zero-Copy) 地直接写入GPU内存(P2P,点对点)。目前,不同厂商的加速器(如NVIDIA GPU, AMD GPU, Google TPU)暴露其内存以供DMA的方式各不相同。此项需求呼吁Linux内核提供一个通用的APIdma-buf是一个可能的现有机制),允许任何加速器分配内存,并安全地将其暴露给任何PCIe设备(如NVMe SSD)进行P2P DMA操作。

AiSiO 方案对于高性能SSD厂商的价值

机遇一:释放硬件潜能,让高性能“物有所值”

这是最核心的机遇。传统GDS方案导致高性能SSD(如PCIe Gen 4.0)性能浪费严重,客户“花钱买了F1赛车,却只能开20码”。AiSiO方案绕过CPU瓶颈,性能提升至GDS的3.9倍(2900+ MB/s),几乎完全释放了SSD硬件潜能。这使SSD厂商能向AI/HPC客户推销高端SSD,将“理论速度”转化为“应用价值”。

机遇二:软件定义差异化,摆脱“硬件内卷”

AiSiO是一个开源软件方案,使SSD厂商从“组件商”升级为“方案商”。他们不再是比拼硬件指标,而是推销“可将AI训练I/O性能提升4倍的完整软件解决方案”。通过主导和开源AiSiO,厂商建立了基于软件和生态的护城河,远比单纯的硬件指标更难被复制。

机遇三:引领新标准,定义下一代“AI-SSD”

AiSiO架构(GPU上的xaf库)对SSD特性提出新要求,特别是元数据查找性能。这为SSD厂商创造了“AI-SSD”品类。未来竞争焦点将转向4K随机读取延迟和元数据查找QoS,而非最大顺序带宽。厂商可据此设计具有特定固件优化的溢价产品线。

机遇四:掌握话语权,在上游“卡位”

通过AiSiO这一“Soft DPU”方案,SSD厂商成功进入Linux内核和加速器I/O标准的制定谈判桌,从“执行者”变为“定义者”。这种“卡位”是无价的,它确保了未来I/O标准将充分考虑高性能SSD的架构优势,使厂商在未来5-10年技术演进中保持领先。


延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  1. 考虑到AiSiO这类“Soft DPU”方案在GPU上消耗计算和HBM资源,您认为在未来的AI基础设施中,它与独立的物理DPU/SmartNIC方案将如何演进和竞争?各自的最佳应用场景会是什么?
  2. 文章强调了AiSiO技术普及对Linux内核社区和加速器I/O标准化的需求。您认为在当前多厂商、多架构并存的生态环境下,实现这种通用API和安全机制的最大挑战是什么?
  3. AiSiO方案为高性能SSD厂商带来了“软件定义差异化”和“引领新标准”的机遇。您是否认为这会促使存储行业加速向“AI-SSD”转型,并重新定义未来存储产品的竞争焦点(例如从最大顺序带宽转向4K随机读取延迟和元数据查找QoS)?

原文标题:Bridging NVMe Storage and GPUs while Preserving File Semantics[1]

Notice:Human's prompt, Datasets by Gemini-2.5-Pro

#FMS25 #GPU存储IO优化

---【本文完】---

👇阅读原文,搜索🔍更多历史文章。


  1. https://files.futurememorystorage.com/proceedings/2025/20250807_OPSW-301-1_LUND.pdf ↩
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 机遇一:释放硬件潜能,让高性能“物有所值”
  • 机遇二:软件定义差异化,摆脱“硬件内卷”
  • 机遇三:引领新标准,定义下一代“AI-SSD”
  • 机遇四:掌握话语权,在上游“卡位”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档