部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >DeepSeek R1推理

DeepSeek R1推理

原创
作者头像
aaronwjzhao
修改2025-03-07 18:06:55
修改2025-03-07 18:06:55
2.4K1
举报
文章被收录于专栏:AI工程落地AI工程落地

模型结构

DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样的。

DeepSeek R1模型结构
DeepSeek R1模型结构

模型推理

原模型推理

因为模型结构和DeepSeek V3都一样,理论上来说,可以直接换一下模型权重,就可以在任何支持V3的推理框架中运行起来。支持V3的推理框架如下:

  1. DeepSeek-Infer Demo: 为FP8和BF16推理提供了一个简单而轻量级的演示。
  2. SGLang: 在BF16和FP8推理模式下完全支持DeepSeek-V3模型。
  3. LMDeploy: 为本地和云部署提供高效的FP8和BF16推理。
  4. TensorRT-LLM: 目前支持BF16推理和INT4/8量化,FP8支持即将推出。
  5. vLLM: 支持DeekSeek-V3模型,具有FP8和BF16模式,用于张量并行和流水线并行。
  6. AMD GPU: 允许在BF16和FP8模式下通过SGLang在AMD GPU上运行DeepSeek-V3模型。
  7. Huawei Ascend NPU: 支持在华为Ascend设备上运行DeepSeek-V3。

vLLM的运行方式可以参考:https://mp.weixin.qq.com/s/Fdh80BW9_1umCVQFyYIvCA

LMDeploy运行方式参考:[Docs] inference DeepSeek-V3 with LMDeploy · Issue #2960 · InternLM/lmdeploy

蒸馏模型推理

DeepSeek官方还使用Qwen、Llama等小模型,基于DeepSeek R1做蒸馏,使得小模型也具备思维链能力。目前大多数云计算产商和第三方公司声称支持DeepSeek R1,运行的都是蒸馏版本。

DeepSeek R1蒸馏模型
DeepSeek R1蒸馏模型

蒸馏模型的结构和运行方式和原模型(Qwen、Llama)一致,运行方式也按照Qwen、Llama即可。

以Qwen蒸馏模型为例,用vLLM运行只需要如下命令:

代码语言:txt
复制
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型结构
  • 模型推理
    • 原模型推理
    • 蒸馏模型推理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档