基于Ktransformers的DeepSeek-R1满血版部署

文章来源：企鹅号 - AI研习所

2月10日，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。

KTransformers通过优化本地机器上的LLM部署，帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段，提升了模型的计算效率，并具备处理长上下文序列的能力。

基于Ktransformers部署DeepSeek-R1

第一步：登录「优云智算」算力共享平台并进入「镜像社区」

步骤二：创建GPU实例

访问优云智算镜像社区，选择DeepSeek Ktransformers镜像。

链接直达：https://www.compshare.cn/images-detail?ImageID=compshareImage-18ikrnb3x30r

KTransformers目前支持Q4级别的DeepSeek的QA对话，由于内存需要300G以上，因此需要选择4卡4090资源。

第三步：启动推理服务，镜像已配置好所需依赖环境，无需额外安装，即可通过以下命令启动推理服务

打开Jupyterlab：

进入Terminal并执行服务启动命令：

进入 KTransformers 目录：

cd ktransformers/

运行本地聊天程序：

python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /compshare-model/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M --force_think true --cpu_infer 60 --max_new_tokens 1000 --optimize_rule_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml

服务启动较慢，需要等待一段时间，出现chat页面后就可以开始对话了：

参数说明：

--model_path（必需）：指定模型名称，例如 "deepseek-ai/DeepSeek-V2-Lite-Chat"，该名称会自动从 Hugging Face 下载配置文件。如果您已经有本地文件，可以直接使用该路径来初始化模型。

注意：目录中不需要 .safetensors 文件，我们只需要配置文件来构建模型和分词器。

--gguf_path（必需）：指定包含 GGUF 文件的目录路径，这些文件可以从 Hugging Face 下载。注意该目录应仅包含当前模型的 GGUF 文件，这意味着每个模型需要一个单独的目录。

--optimize_rule_path（除 Qwen2Moe 和 DeepSeek-V2 外必需）：指定包含优化规则的 YAML 文件路径。ktransformers/optimize/optimize_rules 目录中预先写好了两个规则文件，用于优化 DeepSeek-V2 和 Qwen2-57B-A14，这两个是当前最先进的 MoE 模型。

--max_new_tokens：整数（默认值为 1000）。生成的新令牌的最大数量。

--cpu_infer：整数（默认值为 10）。用于推理的 CPU 数量。理想情况下应设置为（总核心数 - 2）。

以上是优云智算平台支持的Ktransformers DeepSeek模型，优云智算镜像社区仍在不断更新DeepSeek系列镜像，更有海量AI行业镜像等你来体验！

发表于: 2025-02-192025-02-19 14:32:58
原文链接：https://page.om.qq.com/page/OP3-06lVcalZ3KZrBTmGHwbg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

基于Ktransformers的DeepSeek-R1满血版部署

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐