前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大模型训练再提速20%!腾讯星脉网络2.0来了

大模型训练再提速20%!腾讯星脉网络2.0来了

作者头像
小腾资讯君
发布2024-07-02 09:27:36
1060
发布2024-07-02 09:27:36
图片
图片

花重金好不容易才买到的GPU,可能有一半时间都在“偷懒”?!

大模型算力集群就像协作严密的“超级工厂”,员工(GPU)完成阶段性“交付”(计算结果输出)后,必须与其他同事“拉通”(计算结果同步)才能开始新一轮工作。

图片
图片

而拉通时间(集群通信时间)在整体工期中最高占比可达50%,任何一个环节出错(单点故障)都可能导致整座工厂停摆(集群宕机)。

算力资源越来越紧缺、成本越来越高昂,事关效率的“夺命三问”,大模型厂商处理好了吗:

协作速度(通信速度)能不能更快一点?

拉通成本(通信损耗)能不能更低一点?

问题处理(故障定位)能不能更准一点?

刚刚,腾讯自研星脉高性能计算网络全面升级,相比上一代:

支持单集群10万卡组网,规模翻倍

网络通信效率提升60%

让大模型训练效率提升20%

故障定位从天级降低至分钟级

图片
图片

比如同样一个大模型训练集群,某个计算结果同步时间从原来的100秒降至现在的40秒,大模型训练训练时间从原来的50天降至40天。

GPU“身价不菲”,主打一个“别闲着”:

//“基建”全面升级,组网规模翻倍

要想GPU这台豪华超跑发挥最大性能,道路“基建”一定要可靠。

鹅厂是个“基建狂魔”,交换机、光模块、网卡等自研网络设备这次又“上新”了:

自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。

基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。

图片
图片

//“治堵”更“高效”,训练效率提升10%

要想保证路网畅通,除了道路更可靠,也要会高效“治堵”。

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。

即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。

图片
图片

高效治堵,将星脉网络的通信效率提升30%,让大模型的训练效率提升10%。

//“改装”更“灵活”,训练效率提升10%

路况(网络情况)复杂多样,如何灵活调整“车况”,也是成功抵达终点的关键。

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 

图片
图片

同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。

这也就相当于根据实时“路况”对GPU完成灵活“改装”,让其时刻保持最优性能。

此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

做道简单的算术题:

TiTa与TCCL升级带来的效果叠加,让星脉网络的通信效率共提升60%,大模型训练效率共提升20%!

//“排查”更“精准”,从天级到分钟级

集群网络中的运营系统就像一支“维修队”,在故障抢修之前,需要进行全面监控。

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。

图片
图片

万卡级训练故障卡顿、慢节点的定位时间从天级降低至分钟级。

在分布式计算中,由于时间、空间等物理规律限制,算力并不会随着卡的数量线性增长。没有靠谱的通信网络,卡越多,反而会越卡。

我们无法改变规律本身,却可以通过技术演进不断突破极限。

今天,我们迈出了一小步。未来,我们会走得更远。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档