2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。
KTransformers通过优化本地机器上的LLM部署,帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段,提升了模型的计算效率,并具备处理长上下文序列的能力。
基于Ktransformers部署DeepSeek-R1
第一步:登录「优云智算」算力共享平台并进入「镜像社区」
步骤二:创建GPU实例
访问优云智算镜像社区,选择DeepSeek Ktransformers镜像。
链接直达:https://www.compshare.cn/images-detail?ImageID=compshareImage-18ikrnb3x30r
KTransformers目前支持Q4级别的DeepSeek的QA对话,由于内存需要300G以上,因此需要选择4卡4090资源。
第三步:启动推理服务,镜像已配置好所需依赖环境,无需额外安装,即可通过以下命令启动推理服务
打开Jupyterlab:
进入Terminal并执行服务启动命令:
进入 KTransformers 目录:
cd ktransformers/
运行本地聊天程序:
python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /compshare-model/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M --force_think true --cpu_infer 60 --max_new_tokens 1000 --optimize_rule_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml
服务启动较慢,需要等待一段时间,出现chat页面后就可以开始对话了:
参数说明:
--model_path(必需):指定模型名称,例如 "deepseek-ai/DeepSeek-V2-Lite-Chat",该名称会自动从 Hugging Face 下载配置文件。如果您已经有本地文件,可以直接使用该路径来初始化模型。
注意:目录中不需要 .safetensors 文件,我们只需要配置文件来构建模型和分词器。
--gguf_path(必需):指定包含 GGUF 文件的目录路径,这些文件可以从 Hugging Face 下载。注意该目录应仅包含当前模型的 GGUF 文件,这意味着每个模型需要一个单独的目录。
--optimize_rule_path(除 Qwen2Moe 和 DeepSeek-V2 外必需):指定包含优化规则的 YAML 文件路径。ktransformers/optimize/optimize_rules 目录中预先写好了两个规则文件,用于优化 DeepSeek-V2 和 Qwen2-57B-A14,这两个是当前最先进的 MoE 模型。
--max_new_tokens:整数(默认值为 1000)。生成的新令牌的最大数量。
--cpu_infer:整数(默认值为 10)。用于推理的 CPU 数量。理想情况下应设置为(总核心数 - 2)。
以上是优云智算平台支持的Ktransformers DeepSeek模型,优云智算镜像社区仍在不断更新DeepSeek系列镜像,更有海量AI行业镜像等你来体验!
领取专属 10元无门槛券
私享最新 技术干货