DPU的初心是为了解决数据中心税问题,而其上的硬件加速单元以及它的可编程性,则进一步激发了从业人员对其应用场景的多样化探索。
而随着LLM、GenAI等AI技术的出现,人工智能进入了比以往更加蓬勃发展的新时代。那么,AI 时代需要什么样的DPU呢?我将最近查阅的相关材料给大家分享一下。
一、AI网络视角
我们以AMD的文章《The Critical Role of NIC Programmability in Scaling Out Data Center Networks for AI》看下DPU厂商关于DPU该如何在AI集群的网络中发挥作用的思考。
为LLM和GenAI技术构建基础设施设备,不仅需要GPU/NPU作为其计算核心组件,也需要高性能存储以及高性能、无阻塞的网络。
InfiniBand和基于以太的RoCE是用于AI基础设施的横向扩展网络的两大技术,它们都能提供高带宽低时延的网络。
InfiniBand在性能方面较RoCE更胜一筹,且具有先发优势。
而RoCE由于基于标准的以太网协议,具有更高的性价比和更好的网络的易用性与可扩展性。
根据TechTarget公司发布的报告《Architecting the Network for an AI-powered World》,对344家公司的访谈结果显示,相比于InfiniBand,它们更倾向于采用RoCE方案。
在AI集群的网络目标中,由于 AI 模型训练的成本较高,且集群节点之间数据的高效传输至关重要,因此高可靠和高性能是网络的ToP2目标。
和传统提供灵活的有损方案的网卡相比,适用于AI集群的网卡需要:
1.与AI基础设施网络的独特需求相关的功能。现成的商用网络接口卡(NIC)不适用于人工智能基础设施。网络接口卡需要专门设计,以提供能优化性能和灵活性的功能,从而支持整个基础设施的效率和效能。
2.经过验证的行业标准和功能支持。超级以太网联盟(UEC)成立于 2023 年,旨在围绕 RoCE 中所包含的专门适配内容建立标准共识,以实现高性能、分布式且无损的传输。
UEC 的目标是为跨多家供应商的互操作性奠定基础,并通过针对大规模 AI 工作负载的性能需求进行专门优化,使 RoCE 成为 InfiniBand 的可行替代方案。
许多以太网交换机供应商都支持 RoCE,而通过遵循 UEC 标准,无论选择哪家交换机供应商以及哪种类型的以太网(是否为 RoCE),网络接口卡(NIC)都能确保正常运行。
3.可编程性以实现可调节性和未来的灵活性。虽然标准是必不可少的起点,但每个组织的人工智能基础设施都会因所使用的特定基础设施组件以及用于训练模型、管理数据和执行推理的软件而具有独特性。因此,每个人工智能基础设施实例都必须具备可调节性,以便通过调整操作来减少训练时间并消除容量浪费。
AMD为AI基础设施准备的的网络解决方案是Pensando Pollara 400 AI NIC。它具备可编程性、支持UEC,可加速支撑AI基础设施运行的RDMA和RCCL(Radeon Collective Communication Library)通信。
它的重要特性包括:
1. 400 Gbps 连接至AI基础设施集群网络,支持无损或有损 fabrics。
2.全面支持 UEC 标准,使该解决方案能够与任何符合 UEC 标准的网络交换机协同工作。
3.开放的生态系统,以保留客户的选择权并避免供应商锁定。
4.智能负载均衡,通过自适应数据包分发等功能优化流量。
5.多平面 fabric 支持,可实现故障本地化,确保单个平面故障不会影响其他平面。
6.网络接口卡(NIC)高可用性fail over,消除单点故障。
7.可编程传输,支持快速的软件创新,以提供先进的UEC功能和性能优势,且在标准演进时无需重新设计硬件。允许实施自定义的RDMA传输和拥塞控制协议,专门针对各个AI训练集群部署的需求进行优化。
8.主动拥塞管理功能,包括拥塞避免、路径感知拥塞控制和可操作遥测。
9.通过快速故障检测、快速故障转移和丢失恢复实现运行弹性。
10. P4可编程性,用于调优、灵活适配未来需求。
可以看到,Pensando Pollara 400 AI NIC能带来性能、可靠性的提升;可编程性可以适配运行不同业务的AI基础设施的需求;开放的生态系统以及标准能有助于降低TCO。
二、AI业务视角
1.实际产品
OCTEON 10 DPU系列集成了内部ML/AI模块。
用户可以以完全卸载的方式运行ML工作负载,也可以采用引擎加速和 OCTEON 10 Neoverse N2 核心加速相结合的混合卸载模式。
Neoverse N2 核心针对机器学习工作负载进行了向量指令优化,采用混合集成推理方式不仅省去了网络中执行离线或近实时机器学习任务所需的其他计算设备,还能将这些任务转变为实时处理。
Mavell提供了机器学习软件套件,用户可以使用工具链在DPU上编译和执行ML模型。其中编译部分,采用的是将优化后的工具链集成到TVM和GLOW这些框架中的方式。
2.前沿研究
论文《A Survey on Heterogeneous Computing Using SmartNICs and Emerging Data Processing Units:一篇关于使用智能网卡(SmartNICs)和新兴数据处理单元(DPUs)的异构计算的综述》将业界关于DPU和AI/ML结合的探索做了很好的归类总结:
*[]内为论文引文标号,论文的地址:https://arxiv.org/html/2504.03653v1
(1)使深度学习(DL) 可扩展
2022年,Anqi Guo 等人提出了“FCsN”的框架。用于在基于 FPGA 的 SmartNIC 上执行神经网络推理,可提高 HPC 和数据中心处理的性能。在 DNN 和图形神经网络 (GNN) 上进行的测试,和在 CPU 上使用 MPI 的基线相比,速度提高了 10 倍。
2023年,Anqi Guo 等人为分布式深度学习推荐模型(DLRM) 提出了一个硬件和软件共同设计的异构 SmartNIC 系统。目的是解决模型遇到的多对多通信瓶颈,并提高这些模型的可扩展性。他们的方法提高了局部性和计算效率,实现了 2.1× 的推理延迟加速和 1.6× 的训练吞吐量加速。
2023年,奥马尔·扎瓦维建议将一些预处理工作卸载到 DPU,以帮助缓解“数据停顿” 问题:即在 DL 训练期间 CPU 的大量数据预处理会导致主机设备难以跟上训练 GPU 的步伐,从而导致整个管道停滞和 GPU 时间闲置。
(2)用于网络流量管理的 AI/ML
2023年,本杰明·富勒等人使用强化学习算法 RL-CC 为数据中心引入轻量级拥塞控制解决方案,该解决方案被转换为决策树,以实现 500 倍的推理时间缩短。与各种基准测试中的 DCQCN 和 Swift 等现有算法相比,在 NVIDIA ConnectX-6Dx SmartNIC 上的部署在以平衡的方式管理带宽、延迟和数据包丢失方面表现出卓越的性能。
2022年,Siracusano 等人将基于硬件的 on-NIC 二进制神经网络 (BNN) 引入 FPGA SmartNIC 的数据平面。以便使用机器学习以 40Gbps 的线速对网络流量进行分类和分析。与类似网络的软件实现相比,这种硬件加速的神经网络大大改善了延迟(高达两个数量级),并且似乎实现了不错的准确性,同时释放了主机的 CPU 用于其他工作。
上两个研究证明了研究神经网络硬件实现的价值,软件方面:
2023年,Kasim Tasdemir 等人研究在 BlueField-3 DPU 上部署机器学习 (ML) 算法以进行 SQL 注入检测。他们在 SQL 数据集上测试 20 种不同的 ML 模型,使用被动主动分类器实现近乎实时的检测,准确率为99.78%。它们代码在:
https://github.com/gdrlab/dpu-sqli-detection。
(3)协同计算卸载
2021-2022年,Arpan Jain等人调查使用 BlueField-2 DPU 的 ARM 内核来加快 DNN 模型的训练,在尖端 HPC 集群上的训练持续时间提高了 17.5%。
2023年,Shibahara 等人指出联合学习方案存在繁重网络处理负载问题:这些方案需要聚合来自分布式学习器的本地权重,然后将全局权重发送回去。它们利用 DPU 的内核来卸载这种聚合,速度提高了 1.39 倍。
2023年,Marina Perea-Trigo探索并量化了使用DPU 减轻 24 小时活动服务器工作负载的潜在好处:在实验中使用的24 小时视频中,工作负载减少了 43,123%,夜间节省了 98% 以上,这显著减轻了系统压力,并对电能消耗产生了直接影响;
2022年,Tootaghaj 等人提出了一种新的架构“Spike-Offload”,当 SmartNIC 具有可用的计算能力时,它可以战略性地卸载微服务的工作负载峰值(对边缘 ML 工作负载很重要),从而减少SLA违规,并能带来更好的性能、更低的能耗和减少 40% 的潜在资本支出。
(4)硬件CNN
涉及基于 FPGA 的 CNN 的三项值得注意的工作:
2023年,Saidi 等人的:《Cnn inference acceleration on limited resources fpga platforms_epilepsy detection case study.》
2020年,JIang Zhu 等人的《An efficient task assignment framework to accelerate dpu-based convolutional neural network inference on fpgas.》
2023年,Zelin Du 等人的:《Accelerating dnn inference with heterogeneous multi-dpu engines.》
这些工作可能在某种程度上可以转移到 SmartNIC 上,但并没有在实际的 SmartNIC 上进行。相反,这些使用“深度学习处理单元”或一种通常包含在 SmartNIC 中的 Xilinx FPGA。
(5)光学电子技术
2023年,zhong 等人提出了“Lightning”。它是第一个可重新配置的光电子SmartNIC ,具有能够实时进行 DNN 推理的光子计算内核, Lightning 使用快速数据路径将流量从 NIC 馈送到光子域,而不会造成数字数据包处理和数据移动瓶颈。这一壮举比 NVIDIA A100 GPU 快 300 倍以上,同时功耗降低 300 倍。