DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样的。
因为模型结构和DeepSeek V3都一样,理论上来说,可以直接换一下模型权重,就可以在任何支持V3的推理框架中运行起来。支持V3的推理框架如下:
vLLM的运行方式可以参考:https://mp.weixin.qq.com/s/Fdh80BW9_1umCVQFyYIvCA
LMDeploy运行方式参考:[Docs] inference DeepSeek-V3 with LMDeploy · Issue #2960 · InternLM/lmdeploy
DeepSeek官方还使用Qwen、Llama等小模型,基于DeepSeek R1做蒸馏,使得小模型也具备思维链能力。目前大多数云计算产商和第三方公司声称支持DeepSeek R1,运行的都是蒸馏版本。
蒸馏模型的结构和运行方式和原模型(Qwen、Llama)一致,运行方式也按照Qwen、Llama即可。
以Qwen蒸馏模型为例,用vLLM运行只需要如下命令:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。