按:昨天整理了UALink(vs NVLink)最新进展,作为片上互联技术,其传输效率要求最高;而集群(Pod)间互联技术,同样也存在竞争,即超以太网UE,对标NV的IB网络。
问题意识:AI 与 网络
AI用于网络,还是网络用于AI?
- • 许多文章/博客讨论了AI如何改变网络基础设施
- • ...但你需要什么样的网络基础设施才能拥有足够的AI来改变网络基础设施?
- • 是否不仅仅是超高速和馈送?
- • 海量数据集,并行处理要求
- • 数据需要在哪里,何时需要?
AI和网络基础设施之间的相互关系和依赖性。主要观点包括:
- 1. 互依性:AI可以改变网络基础设施,但同时也需要特定的网络基础设施来支持AI的发展。
- 2. 基础设施需求:强调了支持AI所需的网络基础设施不仅仅是高速连接,还包括其他关键因素。
- 3. 数据处理能力:指出了海量数据集和并行处理能力的重要性。
AI工作负载的特性和需求,强调了其对计算资源的巨大需求。主要观点包括:
- 1. 内存需求:AI工作负载需要持续增加的内存带宽和容量,反映了AI模型和数据集的不断扩大。
- 2. 数据访问速度:强调了对(接近)即时数据访问的需求,甚至要处理E字节级的数据量,这反映了AI处理大规模数据的能力。
- 3. 数据流特征:指出AI工作负载常有间歇性的数据激增,这要求系统能够灵活应对突发的高强度计算需求。
- 4. 延迟敏感性:强调"落后"数据(尾部延迟)对整体完成时间的显著影响,这突出了在AI任务中保持一致的低延迟的重要性。
- 5. 持续时间:AI操作可能需要持续数小时甚至数天,这对系统的稳定性和持久性提出了很高的要求。
UE是网络哪部分?
对算力基础设施中的网络做了区分:
- 1. 基于PCIe、CXL的内部总线,图中未表现出;
- 2. 加速计算xPU的Scale-Up网络,这部分对通信过程要求极高,低延时、高带宽;
- 3. 节点间的Scale-Out互联网络,目前有IB/RoCE 方案,超以太网(UE)是基于Ethernet的基础设施;
- 4. 其他标准网络,如系统中的业务网、存储网、管理网等,通常基于百G内以太网。
图左:带宽和延迟
- • 训练高度受延迟限制,其中尾部延迟对频繁的计算和通信阶段产生负面影响
- • 生成阶段是延迟的最大贡献者;占总延迟的60-80%
- • 延迟随输出标记数量的增加而增加
• 大型模型(例如,从GPT-3的175B参数到GPT-4的1T+参数)在网络上驱动更大的消息
图右:总结阶段(即训练)是GPU密集型环节,重点关注计算利用率,需保证通信效率(网络敏感),以提高GPU利用率;生成阶段(即推理)是计算密集型,内存资源稀缺。
UEC 现况
UEC 组织最新情况
超以太网架构
- • 向后兼容
- • 使用libfabric作为其北向API
- • 设计用于集成到现有的常用libfabric框架中
- • 关键驱动力在于超以太网传输(UET)
图右是UEC架构图,从物理层到应用层需重新设计。
UEC(Ultra Ethernet Consortium)传输技术如何应对现代网络面临的重大挑战。主要观点包括:
- 1. 可扩展性:UEC传输支持高达100万个端点的系统规模,确保了面向未来的扩展能力,适应大规模网络部署需求。
- 2. 网络效率:通过多路径路由技术提高网络利用率,优化资源使用,提升整体网络性能。
- 3. 延迟优化:采用灵活的数据包排序机制来降低尾部延迟,这对于时间敏感的应用尤为重要。
- 4. 内置安全:从设计之初就考虑安全性,提供更强大的网络防护能力。
- 5. 高性能计算支持:专门针对AI和HPC工作负载的拥塞控制机制,提供更快的响应时间,满足这些高要求应用的需求。
- 6. 网络可视性:通过端到端遥测技术提供增强的网络可视性,有助于更好地监控和管理网络性能。
传统RDMA网络与超以太网比较。
| | |
|---|
| | |
| | |
| | |
| DC-QCN、Timely、DCTCP、Swift | |
| | |
| | |
对比传统RDMA基础网络与Ultra以太网联盟(UEC)提出的新方案,突出UEC如何更好地满足AI网络需求。主要特点包括:
- 1. 数据包传输:UEC支持乱序数据包交付并保证消息顺序完成,相比传统方法更灵活高效。
- 2. 安全性:UEC将高规模、现代安全性作为核心特性内置,而非外部添加。
- 3. 多路径技术:UEC采用更细粒度的包级多路径(数据包喷射),提高网络利用率。
- 4. 拥塞控制:UEC实现了基于发送方和接收方的拥塞控制,可能提供更精确的流量管理。
- 5. 网络配置:UEC引入语义级配置,使工作负载调优更加灵活和精确。
- 6. 扩展性:UEC大幅提高了网络的端点支持能力,从数万扩展到100万。
小结
- 1. AI基础设施工作负载特征,推导其对高速网络的性能需求。
- 2. 区分集群网络,划分为:加速计算xPU的Scale-Up网络、节点间的Scale-Out互联网络、其他标准网络,指出每部分网络的特征。
- 3. 介绍UEC最新进展,超以太网堆栈架构,及开发过程存在的挑战,对比UE与RDMA网络的差异。
按:更多超以太网(UE)在AI计算和存储场景的进展,可参考AMD J Metz博士在SNIA网络会议上的分享(已添加中文字幕)。