首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeeK 是否靠着「蒸馏」了 OpenAI 才取得成功?蒸馏到底是什么意思?|这就是 DeepSeek 系列(1)

一个视频快速了解什么是蒸馏?DeepSeek 是靠着蒸馏OpenAI取得成功的吗?

引言

DeepSeek 是一次“蓝星级别”的现象级事件,你从任何角度去解析,技术、八卦、团队、地缘政治、人物、金融、资本、市场、情怀,甚至说从改变世界,或者对创新的重新定义上,都会获得足够深入的「认知切片」。

按照马斯克的“第一性原理”,理解一个事物需要从源头出发,遵循逻辑的指引,规避类比和比喻,才能正确的认知事物本身的面貌。

但是我们没有张一鸣的背景和资源,无法邀请大模型领域核心论文作者来讲解各个技术点的底层原理,从零开始看论文也非现实可行之路,从 Transformer:Attention is all you need 到多头潜在注意力机制MLA,从深度学习到 SFT专家监督,从ChatGPT-3 的概率输出到 MoE混合专家模型,以及还有很多来不及学习的技术原理。

但是通过一些概念切片,虽然我们依然是在盲人摸象,但是期望能够摸到大象的核心躯干以及独特于其他“大模型物种”的长鼻,并且理解推理模型、认知模型已经庞大到足以彻底改变人类未来的生活。

本系列试图从每个概念入手,将这些拼图碎片🧩最终拼成完整的理解。在《当我们聊 DeepSeek 时我们在聊什么:蒸馏、混合专家、多头注意力机制、量化精度》我认为如果选择一个概念开始理解,蒸馏是最佳的切入点。

蒸馏,又称为知识蒸馏,Knowledge Distillation

DeepSeek 利用蒸馏获取了“教师级别”的训练数据;千亿参数的模型靠着蒸馏将知识浓缩赋予给小参数模型,允许我们本地部署;开源模型靠着蒸馏出的学生模型可以快速传播;未来的端侧也依赖于蒸馏将模型压缩。

“蒸馏”,distillation,对于不研究大模型的来说,这个词的第一映像好像是“提纯”、“提炼”、“提取”,或者像下面的 AI 梗图一样,好像是 DeepSeek 为了省事直接从 OpenAI 的结果中提炼了一个产品。

但是,这是完全错误的认知。

很简单的一个道理,OpenAI 是世界上最大的闭源模型生产商,所有模型都是闭源的,即你无法知道 ChatGPT 和 o1的模型参数、训练过程和监督数据都是什么,这就是一个“黑箱”,输入问题,给出答案。

那么如何从一个封闭黑箱中“挖掘”或者“提炼”出内部的架构、技术和数据呢?

答案是,永远不可能。

那“蒸馏”到底能做什么,在做什么?蒸馏正确地理解应该为“提炼问题到答案的映射过程”,就像上图一样,在整个训练过程中,暴漏在外面的只有“问题”和“答案”。

换个常用的说法,理解“蒸馏”应该用“教学”来理解。这也是人们常说的“老师模型”和“学生模型”,对于同样的数据,学生模型也会有初始的输出,但是学生会比照老师模型的输出结果来重新修改自己的参数。

虽然无法知道老师模型内部是什么架构和逻辑,但是通过对数据输出的映射和调整,虽然学生是一个参数量远小于老师模型的模型,但是因为提前知道了答案,可以“高效地”使用自己的参数来实现对应的“知识”输出。

最终,蒸馏的目的就是实现了模型压缩。

其实知识蒸馏是一种常见的机器学习模型压缩算法,它将老师模型内“蕴含”的知识迁移到较小的模型上,这样就不需要超大参数模型带来的高成本、高硬件和高维护。

最后用一个通俗的例子来表达“蒸馏”:就是在可能的所有的知识里,我们训练了一个很强的老师模型,但是老师模型使用和部署成本非常高,所以,我们将特定领域(比如人们经常涉及的问题和答案制作成一系列样本数据),我只需要让我的学生模型在这个领域内达到和老师模型一样(大概率)的效果,也就是老师怎么预测,怎么回答,学生也怎么预测,怎么回答,就叫做“知识蒸馏”。

知识蒸馏带来的第一个优势就是,大模型系统架构的优化,很明显,学生模型使用更少的神经网络层数,更少的参数就能实现老师模型的效果。

另一个优势就是,由于模型被压缩,在知识领域中,模型的效率提高了,比如为了通过普通高等数学考试,老师模型因为模型系统架构过于庞大,参数分布稀疏,需要 100 万个问题才能训练成功,但是学生模型由于学习了老师模型“蒸馏”的知识,可能只需要 30 万问题就训练成功,这成本一下子就降低了,并且蒸馏模型训练后的知识结构也更加的合理。

另外一个好处就是,学生模型的表现可能会超过老师模型,因为通过蒸馏后,对于知识的回答概率更加集中在正确答案上。

我们都知道,大模型的输出是按照概率分布的,比如在预测一张图片上是猫还是狗的时候,大模型给出的是一个概率分布,打个不恰当的比方,输入图片后,老师模型给出一个结果:

【鼠(0.02%)、牛(0.02%)、虎(0.02%)、兔(0.02%)、猫(89.02%)、狗(11.02%)、龙(0.02%)、蛇(0.02%)、马(0.02%)、羊(0.02%)】

但是,学生经过蒸馏学习后,可以得出答案,由于本身没有学习过龙和马的知识,得到正确答案的概率更高了:

【兔(0.01%)、猫(89.02%)、狗(11.02%)羊(0.01%)】

所以我们可以看到,蒸馏本身,仅仅能用就是“数据”这个部分。

剩下的神经网络架构、系统创新都要自己来设计,甚至由于缺芯少卡,工程师不得不绕过 CUDA的限制从顶层代码来进行工程优化。

所以,蒸馏仅仅只是第一步,在 DeepSeek-V3 和 R1 的技术论文中,我们看到了 DeepSeek 还有很多的创新,包括了:

MoE

MLA

MTP

GRPO

DualPipe

FP8 混合精度

R1-Zero

我们让 DeepSeek 来简单地扩展这些名词的含义(有一些并不一定完全的正确)。

如果是把训练一个大模型看做是炒一盘菜,除了一开始 DeepSeek 可能利用 OpenAI 获取了一些原始材料以外。炒菜的流程、使用的锅碗瓢盆几乎都经过重新的设计。甚至,炒菜的方式都不是人颠锅,就像是哈利波特中那种魔法指挥下的方式。这是从底层的重新构建。

以上是“这就是 DeepSeek”系列的第一节内容。

后续我们尽量将上面提到的每个概念都能解释清楚,这有助于我们跟上 AI 进化的速度。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OjPOZw9TJayxi78o2VcWXs3A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券