事件背景
▪️ DeepSeek开源通信框架DeepEP,突破英伟达NCCL依赖,初期提升通信效率300%。
▪️ 腾讯针对DeepEP在RoCE网络性能不足问题,基于数据中心经验展开优化。
优化措施
▪️ 双端口网卡智能分配:动态算法绑定多QP,提升带宽利用率。
▪️ 绕过CPU控制面:IBGDA技术实现GPU直连,降低时延。
▪️ 原子化信令协同:硬件级时序锁解决多任务并发混乱。
性能提升
▪️ RoCE网络性能提升100%,突破低成本场景瓶颈。
▪️ IB网络性能再提升30%,强化高性能优势。
▪️ 方案已应用于腾讯混元大模型训练及推理。
合作意义
▪️ 开源社区与企业协作标杆,降低AI训练硬件依赖。
▪️ 推动生成式AI与多模态模型普及。
官方致谢
▪️ DeepSeek公开称赞腾讯贡献为“huge speedup”,认可行业突破性价值。