首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于Ktransformers的DeepSeek-R1满血版部署

2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

KTransformers通过优化本地机器上的LLM部署,帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段,提升了模型的计算效率,并具备处理长上下文序列的能力。

基于Ktransformers部署DeepSeek-R1

第一步:登录「优云智算」算力共享平台并进入「镜像社区」

步骤二:创建GPU实例

访问优云智算镜像社区,选择DeepSeek Ktransformers镜像。

链接直达:https://www.compshare.cn/images-detail?ImageID=compshareImage-18ikrnb3x30r

KTransformers目前支持Q4级别的DeepSeek的QA对话,由于内存需要300G以上,因此需要选择4卡4090资源。

第三步:启动推理服务,镜像已配置好所需依赖环境,无需额外安装,即可通过以下命令启动推理服务

打开Jupyterlab:

进入Terminal并执行服务启动命令:

进入 KTransformers 目录:

cd ktransformers/

运行本地聊天程序:

python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /compshare-model/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M --force_think true --cpu_infer 60 --max_new_tokens 1000 --optimize_rule_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml

服务启动较慢,需要等待一段时间,出现chat页面后就可以开始对话了:

参数说明:

--model_path(必需):指定模型名称,例如 "deepseek-ai/DeepSeek-V2-Lite-Chat",该名称会自动从 Hugging Face 下载配置文件。如果您已经有本地文件,可以直接使用该路径来初始化模型。

注意:目录中不需要 .safetensors 文件,我们只需要配置文件来构建模型和分词器。

--gguf_path(必需):指定包含 GGUF 文件的目录路径,这些文件可以从 Hugging Face 下载。注意该目录应仅包含当前模型的 GGUF 文件,这意味着每个模型需要一个单独的目录。

--optimize_rule_path(除 Qwen2Moe 和 DeepSeek-V2 外必需):指定包含优化规则的 YAML 文件路径。ktransformers/optimize/optimize_rules 目录中预先写好了两个规则文件,用于优化 DeepSeek-V2 和 Qwen2-57B-A14,这两个是当前最先进的 MoE 模型。

--max_new_tokens:整数(默认值为 1000)。生成的新令牌的最大数量。

--cpu_infer:整数(默认值为 10)。用于推理的 CPU 数量。理想情况下应设置为(总核心数 - 2)。

以上是优云智算平台支持的Ktransformers DeepSeek模型,优云智算镜像社区仍在不断更新DeepSeek系列镜像,更有海量AI行业镜像等你来体验!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OP3-06lVcalZ3KZrBTmGHwbg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券