
阅读收获
全文概览
在AI大模型和高性能计算(HPC)的浪潮下,GPU作为算力核心,其惊人的计算能力正面临一个日益凸显的瓶颈:数据I/O效率低下。您的GPU是否也常常处于“饥饿”状态,苦苦等待数据投喂?传统的存储架构中,数据从相对缓慢的NAND SSD到极速的GPU HBM内存,必须经历CPU的“反弹”(CPU Bouncing),这不仅引入了高延迟,还白白消耗了宝贵的CPU周期和DDR内存带宽。更深层次的挑战在于,现有的文件系统软件栈是围绕CPU设计的,使得GPU难以在不牺牲文件语义的前提下,直接、高效地访问数据。这迫使开发者在“极致性能”与“编程易用性”之间做出艰难抉择。本文将深入剖析这一核心矛盾,并介绍三星AiSiO技术如何通过创新架构,为AI时代的GPU存储I/O瓶颈提供一个两全其美的解决方案。
👉 划线高亮 观点批注

系统架构:背景
PPT通过展示一个典型的现代服务器架构,深刻地揭示了高性能计算(特别是AI/GPU计算)中的核心I/O瓶颈。
核心观点是:系统内部存在严重的性能失配。

挑战:数据访问延迟 硬件层面
PPT通过将性能图表与架构图并置,揭示了当前硬件(HW)实现P2P(点对点)数据传输(如GPUDirect Storage)的两个核心挑战:

挑战:基于CPU文件语义访问
PPT的核心观点是:传统的数据I/O软件栈(特别是文件系统)是围绕CPU设计的,这强制数据必须流经CPU,从而造成了严重的性能瓶颈,阻碍了GPU的数据供给。
这张PPT明确了GPU 消耗数据所面临的核心软件挑战:如何在不经过CPU反弹(以获得高性能)的前提下,让GPU依然能够通过文件系统(如open, read)来访问数据?

现有技术的现状
PPT的核心观点是:当前的所有技术方案都存在根本性的缺陷,迫使开发者在“性能”和“易用性(文件语义)”之间做出痛苦的选择。
PPT清晰地指出了当前技术方案的空白:市场亟需一种新技术,它既能提供SPDK级别的“最佳性能”,又能同时“保持文件语义”。

PPT是解决方案的核心展示页。它正式推出了名为 AiSiO 的新技术,并将其定位为解决“性能”与“文件语义”矛盾的理想方案。
AiSiO的核心价值主张是“鱼与熊掌兼得”:
PPT还透露了AiSiO的关键实现思路:通过在GPU上实现计算内核(Compute-kernel)(例如一个GPU原生的NVMe驱动程序),将I/O和数据处理路径从CPU卸载(offload)到GPU上,从而绕过了CPU瓶颈,实现了高性能的文件I/O。
===
Note
通过GPU实现数据直接方案的IO设计,去年12月曾整理过 NVIDIA:GPU作为数据访问引擎的计算架构设计,在这篇文章中Nvidia 阐述了其 BaM 和 SCADA 的顶层设计理念,对于在cuda内核上实现高效数据访问提供了性能参考。
Samsung的 AiSiO 方案可以理解成与SCADA一脉相承,从独立存储厂商的角度,AiSiO 方案需要更多依赖 Linux 社区、加速卡内核与NVMe 功能集成,方案是有吸引力的,但核心关键点在于生态集成度。

PPT详细揭示了AiSiO架构。AiSiO的核心创新是将文件系统的关键逻辑(路径解析)从CPU“卸载”到了GPU上运行。
xaf),AiSiO使得GPU能够自己理解文件系统,将文件路径翻译成物理块地址。
SPDK / xNVMe 这样的用户态驱动自己发起I/O请求。
AiSiO的本质是一种“文件系统卸载”(Filesystem Offload)技术,它使GPU从一个被动的数据消费者(等待CPU喂数据)转变为一个主动的数据发起者(自己获取文件数据)。
===
与依赖物理DPU (Physical DPU) / SmartNIC 硬件的方案相比,AiSiO这种“Soft DPU”方案在架构取舍上有着鲜明的特点。
对比维度 | AiSiO (Soft DPU on GPU) | 物理 DPU (Physical DPU Card) |
|---|---|---|
核心理念 | 计算中心:利用GPU的计算能力来拉取数据 | 基础设置中心:将基础设施从主机中卸载出去 |
硬件成本 | 零(纯软件) | 高(昂贵的额外硬件) |
数据路径 | 极致(1跳):SSD -> GPU | 较长(2跳):SSD -> DPU -> GPU |
资源消耗 | 占用GPU资源(计算、HBM) | 零主机资源消耗(有自己的ARM核和内存) |
功能范围 | 专业化(仅XFS文件I/O卸载) | 通用化(网络、存储、安全、虚拟化) |
生态/隔离 | 较弱(需协同、绑定XFS、软隔离) | 强(标准接口、文件系统无关、硬隔离) |

AiSiO技术成功地在“高性能”和“文件语义”之间实现了两全其美。
与上一张PPT(展示I/O大小对性能影响的线图)不同,这张PPT通过一个柱状图提供了更具说服力的应用级证据:

PPT总结了将AiSiO这类“GPU卸载文件I/O”技术从一个(三星的)特定解决方案推向行业标准所面临的生态挑战和需求。
核心观点是: 为了让这种新技术真正普及并保证安全,不能只靠三星一家公司,必须得到Linux内核社区和整个硬件行业(尤其是其他加速器厂商)的支持。
关键需求有两点:
dma-buf是一个可能的现有机制),允许任何加速器分配内存,并安全地将其暴露给任何PCIe设备(如NVMe SSD)进行P2P DMA操作。
AiSiO 方案对于高性能SSD厂商的价值
这是最核心的机遇。传统GDS方案导致高性能SSD(如PCIe Gen 4.0)性能浪费严重,客户“花钱买了F1赛车,却只能开20码”。AiSiO方案绕过CPU瓶颈,性能提升至GDS的3.9倍(2900+ MB/s),几乎完全释放了SSD硬件潜能。这使SSD厂商能向AI/HPC客户推销高端SSD,将“理论速度”转化为“应用价值”。
AiSiO是一个开源软件方案,使SSD厂商从“组件商”升级为“方案商”。他们不再是比拼硬件指标,而是推销“可将AI训练I/O性能提升4倍的完整软件解决方案”。通过主导和开源AiSiO,厂商建立了基于软件和生态的护城河,远比单纯的硬件指标更难被复制。
AiSiO架构(GPU上的xaf库)对SSD特性提出新要求,特别是元数据查找性能。这为SSD厂商创造了“AI-SSD”品类。未来竞争焦点将转向4K随机读取延迟和元数据查找QoS,而非最大顺序带宽。厂商可据此设计具有特定固件优化的溢价产品线。
通过AiSiO这一“Soft DPU”方案,SSD厂商成功进入Linux内核和加速器I/O标准的制定谈判桌,从“执行者”变为“定义者”。这种“卡位”是无价的,它确保了未来I/O标准将充分考虑高性能SSD的架构优势,使厂商在未来5-10年技术演进中保持领先。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
原文标题:Bridging NVMe Storage and GPUs while Preserving File Semantics[1]
Notice:Human's prompt, Datasets by Gemini-2.5-Pro
#FMS25 #GPU存储IO优化
---【本文完】---
👇阅读原文,搜索🔍更多历史文章。