部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通俗讲解DeepSeek开源:DualPipe,究竟是个啥?(第四弹)

通俗讲解DeepSeek开源:DualPipe,究竟是个啥?(第四弹)

作者头像
架构师之路
修改2025-03-20 10:22:06
修改2025-03-20 10:22:06
3950
举报
文章被收录于专栏:架构师之路架构师之路

《‍deepseek原理应用与实践》 12.deepseek极限潜能 - DualPipe

继DeepGEMM之后,deepseek开源了第四弹DualPipe。今天来简单聊聊DualPipe,包懂。

【1】DualPipe是干嘛的?

Dualpipe,一个双向管道并行算法,提高了前向传播/反向传播过程中的计算+通信效率,降低了单向流水线的等待时间(pipeline bubbles)。

【2】前向传播和反向传播是干嘛的?

你输入:how are you?

AI输出:I’m fine. Thank you. And you?

为什么?

AI的输出,是依据事先训练好的模型(一大堆参数),以追求“用户体验最好”的最大概率。说白了,就是一个预测的过程。

模型的一大堆参数,是怎么来的?

the Forward and Backward Propagation in ANN | Download Scientific Diagram
the Forward and Backward Propagation in ANN | Download Scientific Diagram

前向传播:根据输入,根据模型参数(左图的每一条绿线,一个权重),生成预测结果,通过损失函数,衡量模型的好坏。

反向传播:根据损失函数,明确每个参数对误差的“责任”,指导调整参数(右图的每一条红线,调整权重),对模型进行优化。

如此往复,不断优化,最终训练出模型成品(损失函数最小)。

举个更形象的例子,这好比工厂流水线:

前向传送带:加工零件,生产商品;

反向传送带:质检返修,优化商品;

如此反复,直到生成成品。

可以说,前向传播和反向传播是预测模型的基础。

【3】这和DualPipe有什么关系?

我们要进行多轮参数优化,通常需要:

1. 前向传播

2. 反向传播

1. 前向传播

2. 反向传播

单向流水线交替进行。

如此一来,计算与通信就无法跑满,GPU会有pipeline bubbles。

而Dualpipe:

1. 前向传播与反向传播同时进行;

2. 计算与通讯同时进行(例如:前向传播计算时,加载反向传播所需的数据);

从调度图上能够看出,pipeline bubbles大部分都被填满了。工厂流水线上的单向传送带,升级成了双向循环传送带。

另外,DualPipe的作者:

梁文峰赫然在列!

【4】结尾

对于DualPipe,我的思考是

其一,软件的优化和硬件的升级,一样重要;

其二,为什么很多大公司AI搞不出来?

1. 自己懂,必须自己下场

2. 自己不懂,就让懂的人上;

3. 如果又不懂,又占着资源,能搞得出来?

补充阅读材料:

《DualPipe》

https://github.com/deepseek-ai/DualPipe

可参考。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构师之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档