首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谁说DeepSeek只有工程化,科普DeepSeek的模型创新

DeepSeek是我国的大模型公司,即使最近调整了价格,和市面上其他大模型比,也约为某些著名大模型(如 OpenAI 体系)的几个百分点。它是怎么做到的呢?可以大概总结为以下几个方面的创新:

专家模型MOE

传统做法:用户提问之后,整个大模型都会被调动起来做运算,就好像工厂里所有员工都得干活。DeepSeek采用的新方式:把大模型拆成很多“小专家”网络,每个“小专家”擅长的领域不同。例如有的更擅长数学问题,有的擅长语言翻译。这样,当用户提问时,只需要调动某些对应的“小专家”来工作,而不是让所有子网络都算一遍,就能极大减少计算量。DeepSeek V3 的总参数是 6710 亿(671B),但真正被调用时,大约只需要 370 亿(37B)左右的小专家负责工作,计算成本相当于把一个统一大模型用 1/20 的算力就能完成类似任务。

虽然 MoE 架构(专家模型)不是 DeepSeek 首创,但他们结合自己的业务做了大量优化,进一步降低了运算开销。

2. 多头潜在注意力机制MLA

当模型需要回答问题时,背后其实是对高维空间进行大量复杂计算。DeepSeek 的 MLA 架构,就相当于“把一些高维度的运算压缩到更低维度中进行”,但在保留主要信息的同时,还能大大节省算力。

可以打个比方:原本要计算三维的体积,现在把它拍扁成二维的面积。虽然牺牲了一点高度相关的精度,但换来的是大幅减少计算需求,对用户体验影响不大,却能让模型跑得更省资源。

DeepSeek在训练模型时,可能把几百维度降到只剩几十或几百维左右,效果仍然不错——这是他们在模型结构上的关键创新之一。

3. 强化学习模型GRPO

在模型的训练阶段,行业里常用的一种强化学习叫 PPO,通过“价值模型”每一步都要评估答案的好坏,但这样非常消耗算力和内存。

DeepSeek提出 GRPO,把 PPO 里那个“价值模型”给去掉了,一样可以得到保持质量的训练效果,不再需要每一步都做繁琐评估,极大节省了资源消耗。这也是模型层面的创新。

这进一步表明 DeepSeek在模型层面上有自己的想法:别人的东西不是直接搬过来用,而是针对实际需求改良,做到了节省硬件成本。

4. Janus 架构

“大一统多模态模型”意味着 AI 可以既理解文字也理解图片,既能输出文字也能输出图片。一般情况下,对图片的“理解”和“生成”需要两套不同对内容的编码,原因是两者需求相反:

– 做“理解”时主要extract(提取)高级语义信息,比如物体类别,属性,而不太在意像素级细节。

– 做“生成”时则完全相反,需要保留丰富的细节来生成画面。

DeepSeek创新了模型构架,针对这个矛盾做了“解耦式”编码,让理解和生成分别用不同编码器,但仍共用同一个大模型,这样对理解和生成的需求就不必彼此妥协,能更好地兼顾两种功能。这也为构建下一代更通用、更强大的多模态大模型提供了方向。

5. 极致的工程化优化

除了架构的创新,DeepSeek也做了大量工程上的优化以降低成本提高计算速度,比如:

– 把粗维度的专家模型,调整为更垂直的“小专家”,让每个专家子网络更小,调度更灵活精准。

– 分配任务时,尽量不要调度多个的 GPU,避免 GPU 间通信消耗。

– 采用 FP8 这种低精度浮点运算,而不是 16 位或 32 位,进一步压缩存储与算力需求。

– 在使用 pipeline parallel + tensor parallel + expert parallel 时,尤其要平衡视觉编码器与语言模型模块的负载

这些措施看似是“工程细节”,但它们所带来的性能提升和成本下降,也是DeepSeek的硬实力。

6. 总结

DeepSeek使用了灵活的专家模型(MoE)、高维运算降维的 MLA、改进PPO后的 GRPO,以及创新的 Janus 多模态结构,再加上一系列工程化的优化手段,最终把模型成本和资源需求降得非常低。这种既有模型创新又有极致工程实践的方式,让DeepSeek在业界一鸣惊人,成为大模型领域不可忽视的力量。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OgGqWoB3FiIr3xNaJ3Suy_Kg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券