全文概览
人工智能(AI)的快速发展,尤其是生成性AI的崛起,正在深刻改变存储系统的设计与优化方向。从ChatGPT的快速普及到大型语言模型(LLMs)的规模扩张,AI应用对存储系统的性能、容量和效率提出了前所未有的挑战。与此同时,数据处理单元(DPU)的出现为解决这些挑战提供了新的可能性。本文将探讨AI对存储系统的影响趋势,分析AMD GPU生态系统在AI领域的优势,以及DPU在AI场景中的应用机遇,并通过实际案例研究展示DPU在加速存储访问中的显著效果。
1. AI对存储系统的影响趋势 AI的兴起 生成性AI的快速发展及其在文本、图像和视频生成等领域的广泛应用。大型语言模型(LLMs) 模型规模的快速增长及其对高效存储和计算的需求。数据导向任务的挑战 存储和带宽增长的不平衡对AI系统性能的影响。存储优化的AI框架 DeepSpeed Zero-Infinity等框架的创新与MLPerf基准测试的作用。分离存储需求 高吞吐量和大容量存储在AI系统中的重要性。2. AMD GPUs的AI生态系统 AMD GPU分类 Radeon GPU与Instinct GPU的区别及其应用场景。ROCm开发平台 开源软件栈的功能与支持的深度学习框架。ROCm开发者工具 HIP环境、编译器、调试工具等的详细介绍。3. AI场景的DPU机遇 现代数据中心的挑战 硬件与软件复杂性导致的“数据中心税收”问题。DPU的作用 加速网络、存储和计算任务,提升数据中心性能与效率。DPU市场发展 多款DPU产品的推出及其在AI场景中的应用潜力。4. 案例研究:DPU加速的大模型训练 MangoBoost GPU存储加速(GSB) NVMe/TCP硬件加速与点对点通信优化。测试系统配置 AMD EPYC CPU、MI300 GPU与MangoBoost DPU的协同工作。基准测试结果 FIO与DeepSpeed工作负载中的性能提升与CPU核心使用优化。阅读收获
深入理解AI对存储系统的影响及其未来趋势。 掌握AMD GPU生态系统在AI场景中的优势与应用。 了解DPU在AI存储优化中的关键作用与实际案例。 看到DPU在加速存储访问中的显著性能提升与资源优化效果。 L1- AI对存储系统的影响趋势 AI 的兴起 图表展示了人工智能(尤其是生成性AI)在全球市场中的快速发展,特别是以ChatGPT为代表的应用在短短几个月内达到1亿用户的突破。图表还显示了全球生成性AI市场的预计增长,未来几年预计会有显著增长,特别是在服务领域。此外,AI的不同应用领域(如聊天机器人、图像生成和视频生成)正在获得广泛的应用。
整体来看,人工智能正快速成为一个重要的技术力量,且它的应用场景正日益扩展,涵盖了从文本生成到图像和视频生成等多个领域。
大型语言模型(LLMs) 图展示了当前多个领先的大型语言模型(LLM),并强调了它们的庞大规模和复杂性。主要展示了ChatGPT、GPT-4、ERNIE 4.0、Claude 3 Opus等几个重要的模型,以及它们在不同领域和应用中的大小和参数。模型的规模从几亿到数千亿不等,且正在持续增长。
此外,图中还提到,随着模型规模的不断扩大,如何构建高效的LLM AI系统成为了一个重要问题。当前,AI技术正处于一个快速发展阶段,涉及到越来越复杂和多样化的模型。
关于 LifeArchitect 网站
LifeArchitect.ai 是由人工智能专家 Dr. Alan D. Thompson 创建的网站,致力于深入分析和阐述后2020年人工智能的发展和应用。 该网站被誉为“理解、可视化和实现后2020年人工智能能力的黄金标准”。 它提供了超过100篇论文和文章、300个视频,以及定期发布的《The Memo》通讯,旨在为主要的人工智能实验室、政府和国际组织、研究机构,以及对人工智能革命感兴趣的个人提供深入的见解。
对于关注人工智能的人士,LifeArchitect.ai 提供了以下价值:
深入的研究和分析 :网站包含了大量关于人工智能模型、数据集、算法和应用的详细研究,帮助读者深入了解人工智能的最新进展和趋势。最新的人工智能报告 :Dr. Thompson 定期发布关于人工智能的年度回顾和前瞻性报告,如《Integrated AI: The sky is comforting (2023 AI retrospective)》,为读者提供对人工智能领域的全面视角。多媒体资源 :网站提供了丰富的视频内容,涵盖人工智能的各个方面,帮助读者更直观地理解复杂的概念和技术。专业的人工智能模型分析 :LifeArchitect.ai 提供了对大型语言模型(LLM)的综合分析和比较,包括 GPT-3、GPT-4、PaLM 等多个模型,具体涉及这些模型的规模、能力和训练数据。人工智能工具和资源 :网站提供了多种人工智能工具和资源,如《ALPrompt》和《Datasets Table》,供研究人员和开发者参考和使用。AI系统越来越受到数据导向任务的挑战 图表强调了在过去十年中,人工智能硬件计算能力的快速增长与数据存储和传输带宽增长之间的不平衡。尽管硬件计算性能提升了60,000倍,但存储和互连带宽仅增长了100倍和30倍。因此,当前的大型语言模型(LLMs)已经无法仅通过一张GPU卡来处理,尤其是在处理需要大量内存和数据带宽的任务时,GPU的内存增长速度远低于LLM的规模增长。
随着模型的变大,AI系统需要更多的存储和计算资源,未来可能需要采用更大规模的存储解决方案。
===
左上图,灰色斜线比较了数据中心不同GPU算力的演进趋势(可以了解不同GPUs的算力规模),下方绿色斜线代表高速带宽内存(HBM)容量趋势,蓝色斜线代表GPU互联技术(PCIe 、NVLink)的峰值速率 左下图,红线是不断演进的模型参数规模,随着数据集不断增大,绿线是数据中心GPUs显卡标配的显存容量。 右下图,不同大模型参数量及匹配的AMD 数据中心 GPUs Cite
Andy在最近整理的一篇文章中,带来AMD GPU副总裁对GPUs业务规划和HPC/AI 战略的思考,非常值得一看,AMD在数据中心智算市场的影响力已超越Intel,与Nvidia的竞争随着开放组织的合作,也将愈演愈烈。
存储优化的AI框架和基准测试 图表展示了两个关键的趋势:
存储优化的AI框架 :随着AI模型变得越来越大,传统的内存和存储架构已经无法有效支持这些庞大的计算任务。DeepSpeed Zero-Infinity是一个创新的框架,通过允许数据溢出到内存和SSD,使得大规模AI模型的训练变得更加高效,避免了内存瓶颈。AI基准测试的出现 :为了评估存储对AI系统的影响,像MLPerf这样的基准测试应运而生。这些测试能够衡量在存储和计算资源的支持下,AI训练任务的效率,帮助优化硬件和系统配置。AI系统中对分离存储的需求 图表强调了在AI系统中,尤其是在处理大规模AI模型和数据时,存储资源的优化和分离变得至关重要。传统的存储方式将计算和存储资源紧密集成,而分离存储架构通过将存储服务器与GPU服务器分开,能够提高存储的吞吐量和容量。
关键要点:
高吞吐量和大容量存储 存储服务器使用多个SSD,能够有效支持大型AI模型和数据的存储和访问。灵活的配置 通过分离存储和计算,系统可以根据不同的AI工作负载需求灵活分配存储资源,避免过度配置。提高带宽利用率 通过使用网络接口卡(NIC)而不是直接使用SSD,可以提高GPU服务器的带宽效率,节省空间。分离存储架构为AI系统提供了更高效的存储和计算资源分配方式,尤其是在处理大量数据和复杂计算时,这种架构有助于提升整体性能。
L2- AMD GPUs 的AI 生态 AMD GPUs 图表介绍了AMD的两类GPU:
Radeon GPU 这些GPU主要用于消费级市场,尤其是在游戏中有广泛应用。然而,它们也可以应用于AI和HPC任务,尽管它们的设计并不是专门针对这些领域。Instinct GPU 这些是为数据中心环境而设计的GPU,专注于AI和高性能计算。它们包括:CDNA架构,专为AI和HPC应用优化。 HBM(高带宽内存),确保数据传输的高效。 Infinity Fabric,提供高速的数据互联。 此外,ROCm开发平台 是一个开源平台,支持这两种GPU类型(Radeon和Instinct),为开发者提供了灵活的开发工具。
ROCm 开发平台 图表详细介绍了ROCm(Radeon Open Compute)软件栈,强调它是一个开源平台,为开发者提供对AMD GPU计算资源的访问。ROCm的组成包括多个库、工具和运行时环境,使得开发者能够高效地进行AI、HPC等任务的开发和优化。
关键要点:
广泛的支持框架 ROCm支持多个深度学习框架(如TensorFlow、PyTorch等)。功能丰富的库和工具 ROCm提供多种数学和通信库,能够加速AI和HPC应用的计算。同时,系统管理工具和性能分析工具也帮助开发者优化系统性能。跨平台支持 ROCm支持多种操作系统,并且兼容AMD的Radeon和Instinct GPU,确保了广泛的硬件支持。ROCm为开发者提供了一整套工具链,支持AMD的GPU架构,帮助提升GPU计算任务的效率和可扩展性。
Note
GPU应用除了硬件的先进制程支撑,更关键的是上层软件库的高效处理,这需要大量专业算法人员的开发,NVidia在这一领域具有先发优势,汇集全球高端人才,这也是为什么大家如此追捧NVidia,在他商业成功之前,是有大量基础投入的,更不是国内某些厂商的追随者理论,希望通过暴力转义来获得别人的算法能力。
ROCm 开发者工具 图表介绍了与ROCm相关的开发工具,主要是面向开发人员在ROCm平台上开发AI和HPC应用所需的工具和环境。ROCm为开发者提供了多种支持,包括:
HIP环境 这是一个用于开发GPU加速应用的环境,包含了运行时库和内核扩展。编译器 包括HIPCC ,这是C++和Perl语言的前端编译器,用于支持GPU计算;以及FLANG ,用于LLVM的Fortran编译器。Hipify 这是一个工具,可以将现有的CUDA代码转换为ROCm代码,帮助开发者迁移到ROCm平台。ROCm CMAKE:一个简化ROCm应用程序构建的工具。 ROCgdb:用于调试ROCm应用程序的工具。 这些工具为开发者提供了全面的支持,帮助他们更容易地在ROCm平台上开发高效的GPU计算应用。
L3- AI 场景的DPU机遇 现代数据中心不再具备可扩展性 图表展示了现代数据中心在处理AI、大数据和云应用时面临的两大挑战:
硬件复杂性 随着数据中心中越来越多的设备被加入到网络中(包括NIC、SSD、GPU、NPU等),硬件复杂性和管理需求显著增加。软件复杂性 新兴技术(如虚拟化和NVMe-oF)导致了软件堆栈的增长,使得系统管理变得更加复杂。这些挑战导致了所谓的“数据中心税收 ”——即为了支持这些复杂任务,CPU的开销和负担显著增加。例如,在Google和Facebook的数据中心,CPU的开销分别为22-27%和31-83%。
关键要点:
数据中心面临不断增长的硬件和软件复杂性。 随着更多的硬件和软件组件的引入,CPU的开销也在增加。 为了应对这些挑战,需要更有效的硬件和软件架构设计。 DPU加速各种基础设施数据处理 图表强调了DPU(数据处理单元)在数据中心中的作用,特别是在处理AI、大数据和云应用时的优势。DPU被设计为加速网络、存储和计算资源的管理,它通过优化数据的传输、存储和处理效率,能够显著提升数据中心的性能、可扩展性并降低总拥有成本(TCO)。
关键要点:
DPU加速功能 DPU(包括IPU、超智能NIC等)能够加速虚拟化、网络、存储等任务,并优化GPU、NPU等硬件设备的操作。提升数据中心性能 DPU有助于提升数据中心的可扩展性、性能和总体拥有成本,使其更具效率和经济性。适用范围广 DPU特别适合AI、大数据和云应用等数据密集型任务,它能够加速这些应用的运行,并提高资源管理的效率。DPU的引入为数据中心提供了更高效、更灵活的基础设施管理解决方案,尤其是在处理现代复杂应用时的巨大潜力。
Note
是不是可以这么来理解:从最早x86 CISC 复杂指令集,CPU作为集中数据处理模块,因功耗和执行效率跟不上应用需求;在上世纪90年代初计算产业开始向 RISC 精简指令集转移(提炼出80%常用的执行命令),从而出现 ARM 和移动计算;近40年后的今天,随着数据智能的爆发,针对数据处理的有限算法/功能,将再次被抽离出来,定义为专有硬件,这一切的背后是计算效率、密集应用的推动,随着大模型的广泛落地,面向大模型的专属硬件将可能是下一个加速计算载体。
精简指令 与 复杂指令
精简指令集(RISC, Reduced Instruction Set Computing)和复杂指令集(CISC, Complex Instruction Set Computing)是两种不同的计算机体系结构,每种体系结构有其独特的设计哲学和性能特点。下面是它们的主要差异:
1. 指令集的复杂性 RISC(精简指令集计算) RISC架构的指令集较小,每个指令执行的任务都非常简单,通常一个指令就完成一个操作。 每条指令通常长度固定,且每条指令的执行周期相同(即,所有指令通常在一个时钟周期内执行)。 设计理念是通过简单而高效的指令来提高处理器的性能。 CISC(复杂指令集计算) CISC架构的指令集较为复杂,一条指令可能包含多个操作,甚至可以一次性完成如加载、存储、加法等多个操作。 CISC指令的长度通常不固定,执行时间也不均匀,某些指令可能需要多个时钟周期才能执行完成。 CISC的设计目标是通过复杂的指令来减少程序的指令数,从而减少内存的使用。 2. 指令的数量和类型 RISC 有较少的指令(通常数十条),每条指令都执行简单且具体的任务。 例如,RISC架构中的大部分指令都是数据传输、加法、减法、跳转等基础操作。 CISC 包含更多的指令(通常上百条甚至更多),这些指令可以执行更复杂的任务。 CISC指令集包含如字符串处理、乘法、除法等较为复杂的操作,能在一条指令内完成多个步骤。 3. 指令执行的效率 RISC 因为指令简单,所以通常每条指令执行的时间固定,并且可以在一个时钟周期内完成,执行效率较高。 RISC的硬件设计通常较为简单,使得它能够高效地利用流水线技术,并在现代的处理器中得到广泛应用。 CISC 由于指令较复杂,指令的执行时间不固定,某些指令可能需要多个时钟周期完成,因此在单个指令的执行效率上可能较低。 然而,由于每条指令能完成更多的操作,程序可能会包含更少的指令,理论上能够节省内存和提高代码密度。 4. 硬件和软件的设计 RISC 由于RISC指令集简单,硬件的实现相对简单,设计时更多依赖于硬件的速度和流水线技术来提高性能。 软件编程通常需要更多的指令来完成某个任务,但每条指令的执行非常快速。 CISC CISC指令集复杂,硬件需要更强大的解码能力来处理各种不同长度和复杂度的指令。 软件编程可以利用少量的复杂指令来完成更多的任务,从而可能减少程序的大小。 多款DPU产品进入市场 图表展示了多个厂商推出的DPU产品,这些DPU专门用于加速数据中心中的基础设施和I/O处理。与传统的CPU和GPU不同,DPU的设计目标是处理数据流动、存储操作以及网络通信,从而减轻主处理器的负担,提高整体系统的效率。
关键要点:
DPU的作用 DPU(数据处理单元)主要用于加速与网络、存储和I/O相关的任务,改善数据传输和处理的效率。FPGA和ASIC产品 DPU产品包括基于FPGA的Alveo SmartNIC和基于ASIC的各种产品(如Pensando DPU和Bluefield DPU),这些硬件为不同应用场景提供了更高效的解决方案。市场参与者 包括Intel、NVIDIA、AMD和MangoBoost等知名公司,他们都在推动DPU产品的发展和应用,旨在提高数据中心的性能和扩展性。DPU在AI系统中的应用机会 图表展示了DPU在AI系统中的关键作用,尤其是在处理GPU服务器间的高带宽通信和存储数据传输时,DPU能够提供显著的性能提升。通过利用RDMA和NVMe over Fabric等技术,DPU能够加速GPU与存储之间的数据交互,从而提高整体AI系统的效率。
关键要点:
DPU加速网络和存储 DPU可以优化GPU间的通信、节点内的点对点通信以及GPU与存储之间的高速数据传输。提高系统性能 通过利用高效的网络和存储技术,DPU能够解决GPU服务器面临的I/O瓶颈,进一步提升AI系统的整体性能。具体应用案例 如使用AMD GPU和MangoBoost DPU优化GPU与远程存储的通信,展示了DPU在解决存储和数据传输问题方面的强大能力。这表明DPU在数据密集型AI应用中的潜力,尤其是在处理大规模数据时的关键作用。
L4 - 案例研究:DPU 加速的大模型训练 MangoBoost GPU存储加速(GSB)——(1)NVMe/TCP硬件 图表展示了如何通过将NVMe/TCP协议栈的处理卸载到DPU(数据处理单元)上,来简化存储通信软件栈,并显著提升数据传输性能。MangoBoost DPU采用了硬件加速机制,包括使用FPGA实现NVMePCIe虚拟化和协议转换,以及嵌入式ARM处理器处理控制路径,从而提高了整个存储系统的数据处理速度。
关键要点:
硬件加速 通过将NVMe/TCP协议栈卸载到DPU上,MangoBoost提高了存储系统的性能,减少了CPU的负担。FPGA和ARM协作 FPGA用于数据路径的协议转换,而ARM处理器负责控制路径的管理。简化软件栈 通过硬件加速,软件栈变得更加简单,提升了整体系统的效率和性能。高效存储通信 在DPU加速下,系统能够更高效地进行存储操作和数据传输,特别是在数据中心和存储密集型应用中。这张图显示了MangoBoost如何通过创新的硬件加速方案来优化数据传输和存储操作,在AI和高性能计算等领域具有巨大的应用潜力。
Note
顺着前面Note的思路接着发散一点,这页介绍DPU 的内容还是围绕在数据通信协议的硬件加速卸载,说白了是将原来需要在OS层面处理的TCP协议栈,通过NVMe的引入将其外置到DPU中,结合AI应用就是要分析清楚:在推理过程,究竟在TCP层的网络通信要消耗多少CPU资源,基于DPU这一块都可以从CPU中砍掉。这也是为什么:明明叫数据处理单元的(DPU)做的却是网络通信优化的工作,但除了这一点,在AI场景,数据处理单元能做的事,肯定不止这些!这也回答了为什么今天的DPU才刚刚开始。
图表展示了如何通过启用DPU与GPU之间的点对点通信 来优化数据传输路径,解决了传统架构中因CPU、内存和PCIe争用而导致的性能瓶颈。通过点对点通信,GPU和DPU可以直接交换数据,减少了数据传输时的延迟,并提高了存储系统的整体效率。
关键要点:
点对点通信 启用DPU与GPU之间的直接数据交换,减少了数据传输路径中的瓶颈,提升了数据传输速度和效率。解决资源争用问题 通过直接的GPU与DPU通信,避免了CPU、内存和PCIe的资源竞争,从而提高了数据中心和计算密集型应用的整体性能。数据传输优化 该方案能够显著优化GPU数据路径,减少延迟并提升存储系统的性能。这种架构的设计对于需要高效、低延迟数据处理的应用,如AI、机器学习和大数据分析,具有重要意义。
GPU存储加速(GSB):文件API 图表展示了如何通过MangoBoost的硬件加速方案来优化文件API,使得用户应用程序(如FIO、DeepSpeed)能够通过硬件加速提高数据传输速度,特别是在处理高性能计算和存储任务时。
关键要点:
文件API优化 通过MangoBoost的硬件加速,文件系统和存储协议的处理更加高效,减少了CPU和网络的负担。硬件加速 MangoBoost的DPU和GPU合作,通过点对点通信加速了数据交换,提高了存储和计算效率。GPU与DPU协作 通过Mango DPU与GPU的协同工作,进一步优化了GPU存储加速,提升了应用程序的性能。该架构适合需要高效存储和快速计算的应用场景,如深度学习、大数据分析等领域,特别是在需要快速存取大量数据时。
Note
这篇文章尤应该和前几天整理的Qistor的方案来比较理解,本质上都是基于专属硬件来加速数据访问,Qistor 是通过FPGA 实现KV存储的加速,抽象出的是面向对象存储的API,而这里的MangoBoost 是通用文件的APIs,可以前者是后者的子集,但Qistor 是直接面向存储的加速硬件,两者应该融合,太割裂了对于客户来说很难接受。
关于 Qistor 的硬件实现 KV 存储方案,可参考阅读:
硬件加速键值存储:数据中心的颠覆性变革 技术突破:Qistor提出的硬件加速键值存储方案,通过将LSM树等核心算法迁移至FPGA/ASIC硬件,实现了存储抽象层的革命性突破,显著提升了存储效率和性能。 应用场景:该技术在AI训练、向量数据库等高性能计算场景中展现出巨大潜力,已在Twitter、Facebook等超大规模应用中验证了10-100倍的性能提升。 MangoFile的详细信息 表展示了MangoFile库在数据传输过程中的作用。通过直接与GPU内存和存储设备之间的数据交换,MangoFile库提供了高效的文件I/O操作。它通过ROCm和ROCK内核驱动,利用点对点通信 (peer direct)来减少CPU的负担,并通过NVMe驱动 进行DMA地址映射和存储命令提交,从而实现快速的数据传输。
关键要点:
内存注册与读取/写入 MangoFile通过注册GPU内存,获取相应的信息,并进行文件I/O操作。ROCm/ROCK驱动支持 ROCm和ROCK内核驱动实现了GPU与存储设备的直接对等通信,优化了数据传输路径。NVMe驱动 通过NVMe驱动,MangoFile能够有效地管理数据传输,确保低延迟和高效率。文件I/O操作 MangoFile库简化了文件I/O操作,充分利用GPU存储加速,提高了文件系统的性能。测试系统 图表展示了一个高性能的测试系统,配备了AMD的EPYC CPU 、MI300 GPU 和MangoBoost DPU ,该系统特别适用于数据密集型任务,如AI计算和存储加速。配置中的DPU 和GPU 通过PCIe Gen5 进行高速连接,确保了系统的高带宽和低延迟。
关键要点:
高性能硬件 系统配备了AMD EPYC CPU 和AMD MI300 GPU ,为并行计算和图形处理提供强大支持。MangoBoost DPU的引入 通过MangoBoost DPU 加速数据传输和存储操作,特别是在需要高带宽的场景中,DPU能够提高整体性能。PCIe Gen5和100Gbps网络 为各个组件(CPU、GPU、DPU)提供了高速连接,确保了数据流动的高效性。操作系统和配置 运行Ubuntu 22.04.3 LTS ,配置了适合大规模数据处理和虚拟化的GRUB参数。评估1:FIO 的基准测试 对照组(左图):普通网卡 加持下的 GPU 系统
实验组(右图):MangoDPU 加持下的 GPU 系统
FIO微基准测试——结果 数据传输带宽 (Data Movement Bandwidth):左侧图表显示了不同块大小下的带宽结果,GPU存储加速 (黄色)相较于CPU缓冲区和软件NVMe/TCP (灰色),提供了更高的带宽。 GPU存储加速 方案在网络线速带宽附近提供了1.7倍至2.6倍 的带宽提升。CPU系统使用率超过80% ,并且在1MB和2MB块大小 下带宽提升显著,说明GPU存储加速方案有效减少了CPU负担。数据传输延迟 (Data Movement Latency):右侧图表展示了不同块大小下的延迟。GPU存储加速 的延迟相比CPU缓冲区与软件NVMe/TCP 方案减少了25% ,无论是平均延迟 、90百分位数延迟 ,还是99百分位数延迟 ,都展现了较低的延迟。 特别是在256KB块大小时,延迟减少了20% 。 CPU核心使用 (CPU Cores Used):第三个图表展示了在不同块大小下所使用的CPU核心数。GPU存储加速 方案显著减少了22到36个CPU核心的使用 ,特别是在2MB块大小时,节省了最多的核心数量。 评估2:DeepSpeed工作负载——软件设置 图表展示了如何通过修改DeepSpeed 的后端(交换模块),利用MangoBoost DPU 来加速数据交换,特别是在高性能计算(HPC)和深度学习等工作负载中。通过启用加速交换模式 ,GPU与存储之间的数据交换速度得到了显著提升。
关键要点:
加速交换模式 通过启用MangoBoost DPU ,传统的交换模块(Normal Swap Mode)被替换为加速交换模式,以优化数据传输。Mango文件和DPU Mango文件库通过硬件加速加快I/O操作,DPU负责提供高效的点对点数据传输,显著提高了存储和计算之间的数据流动效率。优化计算和存储交互 利用Mango DPU 和AMD GPU 的协同作用,整个DeepSpeed工作负载的性能得到了提升。DeepSpeed 项目在AI场景中的价值
参考阅读 :DeepSpeed 如何从存储层优化推理性能?
1. 内存和并行优化
DeepSpeed是微软大规模AI倡议的一部分,包含强大的内存和并行优化工具包,专门用于在现代GPU集群上高效进行大规模模型训练和推理。它利用异构内存(GPU、CPU和NVMe)进行扩展,显著提高了计算效率。
2. 减轻GPU负担
在推理过程中,DeepSpeed通过将模型参数卸载到NVMe存储并将KV缓存卸载到CPU内存,有效减轻了GPU的负担,从而提高了推理效率,尤其是在处理大规模模型时。
DeepSpeed工作负载——结果 图表展示了MangoBoost GPU存储加速(GSB)在DeepSpeed工作负载中的显著性能提升:
更高的带宽 GPU存储加速提供比传统CPU缓冲区和软件NVMe/TCP高1.7倍的数据传输带宽。减少CPU核心使用 GPU存储加速显著减少了CPU核心的使用,节省了25个CPU核心,使得计算资源更加高效。AI训练框架中的优势 该优化在AI训练框架中提供了显著的性能提升,尤其是在数据传输和计算效率方面。总结 高效存储系统成为AI系统中的关键因素 :在AI计算中,GPU需要保持计算繁忙,但由于本地设备内存的限制,无法存储大量的AI模型、数据和参数。 AMD提供先进的AI生态系统 :AMD Instinct™ GPU 和 AMD ROCm™ 软件 :为AI工作负载提供强大的硬件和软件支持。数据处理单元(DPU) :可以提高存储系统的效率和性能。MangoBoost 提供了全面的DPU解决方案,例如 GPU-storage-boost ,用于优化数据传输和处理。案例研究:使用MangoBoost存储解决方案进行Llama训练 :改善MicroBenchmark 的吞吐量,提升 1.7x 到 2.6x,并节省 22-37 个 CPU 核心。改善AI训练存储访问 吞吐量,提升 1.7x,并节省 25 个 CPU 核心。延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
在AI快速发展的背景下,DPU在存储优化中的潜力还有哪些未被挖掘的领域? 随着AI模型规模的持续增长,未来存储技术的发展方向可能是什么? 如何在实际应用中平衡存储性能与成本,以满足AI场景的需求? 原文标题:Accelerating GPU Server Access to Network-Attached Disaggregated Storage using Data Processing Unit (DPU)