前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于 AI 网络的光交换,Meta 尝试了新玩艺儿!

关于 AI 网络的光交换,Meta 尝试了新玩艺儿!

作者头像
用户6874558
发布2024-03-02 09:22:33
1740
发布2024-03-02 09:22:33
举报

众所周知

谷歌走在了光交换的前列

OCS已经成为独门秘制的杀手锏

谷歌Apollo:DCN网络游戏规则改变者

随着AI的火爆

Meta也盯上了光交换

OCS的问题是价格太贵端口太少

所以Meta另辟蹊径联合业界小伙伴

尝试使用可重新配置的光交换机和配线架

成果发表于20届USENIX网络系统设计与实现

我们提出了用于深度神经网络(DNN)训练的新型直连交换结构 TOPOOPT。它结合计算、通信和网络拓扑三个维度共同优化分布式训练过程。我们演示了 AllReduce 流量的可变性,并利用此属性为 DNN 训练作业构建高效的网络拓扑。然后,TOPOOPT 使用交替优化技术和名为 TotientPerms 的群论启发算法,结合并行化策略,找到最佳网络拓扑和路由计划。我们建立了一个功能齐全的 12 节点直连原型,它具有 100 Gbps 的RDMA转发功能。在真实分布式训练模型上进行的大规模仿真表明,与成本相近的胖树互联相比,TOPOOPT 可将 DNN 训练时间缩短 3.4 倍。

和所有校企联合都一样

Meta提供了生产集群的数据

麻省理工和卡内基梅隆的劳力提供算法

然后核心的光交换设备来自Telescent公司

从原理看

Telescent配线架

重新配置延迟很明显要远超OCS

估计这也是未能大规模应用的主要原因

想在数据中心部署需要结合计算提前规划路径

Telescent 公司的配线架,通过 "机械臂抓取传输侧的光纤并将其连接到接收侧的光纤 "来重新配置网络。机械臂由软件控制,可以上下移动,将发射光纤与系统中任意位置的接收光纤连接起来。这为快速重新配置网络提供了所需的灵活性和弹性。

2015年

Telescent公司

还在中国申请了上述专利

Meta对开源生态是真爱,在网络探索上也是不遗余力。

第一波:Meta 最新网络架构研究可将大型语言模型训练网络成本降低 75%

第二波:Meta TOPOOPT对分布式训练的网络拓扑和并行化策略的协同优化

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云深知网络 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 谷歌Apollo:DCN网络游戏规则改变者
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档