首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >IB领跑的计算网,UEC能否破局?

IB领跑的计算网,UEC能否破局?

作者头像
数据存储前沿技术
发布2025-02-11 18:07:37
发布2025-02-11 18:07:37
4860
举报

按:昨天整理了UALink(vs NVLink)最新进展,作为片上互联技术,其传输效率要求最高;而集群(Pod)间互联技术,同样也存在竞争,即超以太网UE,对标NV的IB网络。

问题意识:AI 与 网络

AI用于网络,还是网络用于AI?

  • • 许多文章/博客讨论了AI如何改变网络基础设施
  • • ...但你需要什么样的网络基础设施才能拥有足够的AI来改变网络基础设施?
  • • 是否不仅仅是超高速和馈送?
  • • 海量数据集,并行处理要求
  • • 数据需要在哪里,何时需要?

AI和网络基础设施之间的相互关系和依赖性。主要观点包括:

  1. 1. 互依性:AI可以改变网络基础设施,但同时也需要特定的网络基础设施来支持AI的发展。
  2. 2. 基础设施需求:强调了支持AI所需的网络基础设施不仅仅是高速连接,还包括其他关键因素。
  3. 3. 数据处理能力:指出了海量数据集和并行处理能力的重要性。

AI工作负载的特性和需求,强调了其对计算资源的巨大需求。主要观点包括:

  1. 1. 内存需求:AI工作负载需要持续增加的内存带宽和容量,反映了AI模型和数据集的不断扩大。
  2. 2. 数据访问速度:强调了对(接近)即时数据访问的需求,甚至要处理E字节级的数据量,这反映了AI处理大规模数据的能力。
  3. 3. 数据流特征:指出AI工作负载常有间歇性的数据激增,这要求系统能够灵活应对突发的高强度计算需求。
  4. 4. 延迟敏感性:强调"落后"数据(尾部延迟)对整体完成时间的显著影响,这突出了在AI任务中保持一致的低延迟的重要性。
  5. 5. 持续时间:AI操作可能需要持续数小时甚至数天,这对系统的稳定性和持久性提出了很高的要求。

UE是网络哪部分?

对算力基础设施中的网络做了区分:

  1. 1. 基于PCIe、CXL的内部总线,图中未表现出;
  2. 2. 加速计算xPU的Scale-Up网络,这部分对通信过程要求极高,低延时、高带宽;
  3. 3. 节点间的Scale-Out互联网络,目前有IB/RoCE 方案,超以太网(UE)是基于Ethernet的基础设施;
  4. 4. 其他标准网络,如系统中的业务网、存储网、管理网等,通常基于百G内以太网。

图左:带宽和延迟

  • • 训练高度受延迟限制,其中尾部延迟对频繁的计算和通信阶段产生负面影响
    • • 生成阶段是延迟的最大贡献者;占总延迟的60-80%
    • • 延迟随输出标记数量的增加而增加

• 大型模型(例如,从GPT-3的175B参数到GPT-4的1T+参数)在网络上驱动更大的消息

  • 性能不佳的网络因此会导致昂贵资源的利用不足

图右:总结阶段(即训练)是GPU密集型环节,重点关注计算利用率,需保证通信效率(网络敏感),以提高GPU利用率;生成阶段(即推理)是计算密集型,内存资源稀缺。

UEC 现况

UEC 组织最新情况

超以太网架构

  • • 向后兼容
    • • 使用libfabric作为其北向API
    • • 设计用于集成到现有的常用libfabric框架中
  • • 关键驱动力在于超以太网传输(UET)
    • • 根据配置文件,由可选功能和特性补充

图右是UEC架构图,从物理层到应用层需重新设计。

UEC(Ultra Ethernet Consortium)传输技术如何应对现代网络面临的重大挑战。主要观点包括:

  1. 1. 可扩展性:UEC传输支持高达100万个端点的系统规模,确保了面向未来的扩展能力,适应大规模网络部署需求。
  2. 2. 网络效率:通过多路径路由技术提高网络利用率,优化资源使用,提升整体网络性能。
  3. 3. 延迟优化:采用灵活的数据包排序机制来降低尾部延迟,这对于时间敏感的应用尤为重要。
  4. 4. 内置安全:从设计之初就考虑安全性,提供更强大的网络防护能力。
  5. 5. 高性能计算支持:专门针对AI和HPC工作负载的拥塞控制机制,提供更快的响应时间,满足这些高要求应用的需求。
  6. 6. 网络可视性:通过端到端遥测技术提供增强的网络可视性,有助于更好地监控和管理网络性能。

传统RDMA网络与超以太网比较

特性

传统RDMA基础网络

Ultra以太网联盟 (UEC)

数据包交付

要求顺序交付,Go-Back-N恢复

乱序数据包交付,顺序消息完成

安全性

安全性在规范之外

内置高规模、现代安全性

多路径技术

流级多路径

数据包喷射(包级多路径)

拥塞控制

DC-QCN、Timely、DCTCP、Swift

基于发送方和接收方的拥塞控制

网络配置

网络调优的刚性网络架构

工作负载调优的语义级配置

可扩展性

可扩展到同时低数万个端点

目标扩展到100万个同时端点

对比传统RDMA基础网络与Ultra以太网联盟(UEC)提出的新方案,突出UEC如何更好地满足AI网络需求。主要特点包括:

  1. 1. 数据包传输:UEC支持乱序数据包交付并保证消息顺序完成,相比传统方法更灵活高效。
  2. 2. 安全性:UEC将高规模、现代安全性作为核心特性内置,而非外部添加。
  3. 3. 多路径技术:UEC采用更细粒度的包级多路径(数据包喷射),提高网络利用率。
  4. 4. 拥塞控制:UEC实现了基于发送方和接收方的拥塞控制,可能提供更精确的流量管理。
  5. 5. 网络配置:UEC引入语义级配置,使工作负载调优更加灵活和精确。
  6. 6. 扩展性:UEC大幅提高了网络的端点支持能力,从数万扩展到100万。

小结

  1. 1. AI基础设施工作负载特征,推导其对高速网络的性能需求。
  2. 2. 区分集群网络,划分为:加速计算xPU的Scale-Up网络、节点间的Scale-Out互联网络、其他标准网络,指出每部分网络的特征。
  3. 3. 介绍UEC最新进展,超以太网堆栈架构,及开发过程存在的挑战,对比UE与RDMA网络的差异。

按:更多超以太网(UE)在AI计算和存储场景的进展,可参考AMD J Metz博士在SNIA网络会议上的分享(已添加中文字幕)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题意识:AI 与 网络
  • UE是网络哪部分?
  • UEC 现况
  • 小结
    • 按:更多超以太网(UE)在AI计算和存储场景的进展,可参考AMD J Metz博士在SNIA网络会议上的分享(已添加中文字幕)。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档