前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用光模块Breakout功能减少AI训练中断故障

使用光模块Breakout功能减少AI训练中断故障

作者头像
大成鹏通信
修改2024-09-30 09:47:08
840
修改2024-09-30 09:47:08

使用光模块Breakout功能减少AI训练中断故障

根据Meta Llama 3.1万卡集群公开的论文,Llama 3.1 在为期 54 天的训练期间,经历了共 466 次任务中断,其中8.4%是Network原因,包括交换机和网络线缆故障。另据IDC的报告,“根据华为数据中心评估,1000k+GPU的稳定训练时间不超过 2.8天。”,“22%的中断是网络故障导致的。“其中由于光模块故障造成的AI训练中断的比例是更低的。但是,作为光模块来说,是否还有继续优化的空间?下面我们来探讨一下如何使用光模块Breakout功能减少AI训练中断故障。

图1 Meta Llama 3.1万卡集群故障率一览

首先,我们以用于AI网络互联的400G QSFP112 SR4为例来看一看光模块的内部架构。

图2 400G QSFP112 SR4内部架构

由上图可以清晰的看出,整个光模块分为4个光通道(4*100G)并对应有4个电通道(4*100G,),其中任何一路通道出现故障,光模块将告警信息上报给主机,告诉主机哪个通道有问题,主机会关断整个端口,也就是说其他3路工作正常的通道数据转发也会被中断,如图3所示。于是就产生了由传统光模块因单通道故障导致的训练中断问题。

图 3

根据经验,传统光模块的年失效率达4‰,其中,单通道故障约占90%。对此,光模块支持通过Breakout功能,实现单通道故障数据转发不中断,有效解决了传统光模块因单通道故障导致的训练中断问题。简单解释为,把一个400G QSFP112 SR4光模块的4个通道看成4个100G光模块,当单个通道故障时,仅所在通道停止工作,其他通道仍可正常进行数据转发,如图4所示。由此,可以大幅减少因单通道故障导致AI训练中断故障。

图 4

结合上面我们的讨论,还可以在AI基础网络组网上提出更灵活的组网,对通道进行分组,比如800G QSFP-DD SR8模块,8个通道(8*100G),我们可以通过Breakout功能,分为4*100G+4*100G两组进行组网,也可以2*100G+2*100G+2*100G+2*100G四组进行组网。这也是有源光缆AOC和无源铜缆DAC分支线缆产品能够实现的原理。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云联网
云联网(Cloud Connect Network,CCN)提供全网互联服务,助力您实现各地域的云上、云下多点互联。云联网的智能调度、路由学习等特性,可帮助您构建极速、稳定、经济的全网互联,轻松满足在线教育、游戏加速、混合云等全网互联场景下的极速体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档