2025 年云原生运维实战文档 X 篇原创计划 第 08 篇 |AI 最佳实战「2025」系列 第 06 篇
你好,我是术哥,云原生开源技术布道者:KubeSphere Ambassador、Milvus 北辰使者。很高兴在「运维有术」与你相遇。
🔥 重磅消息!上期的文章 【独家揭秘】百元级"垃圾卡"竟能媲美万元RTX?M40+QwQ-32B组合让AI大佬都惊呆了! 在AI圈内引发了巨大反响!短短4天阅读量突破6000+,创下历史新高!这个数据证明了一个事实:低成本部署AI大模型的需求确实存在,而且非常强烈!
m40-qwq-data
众多读者在评论区热切留言:能否用这张神奇的显卡挑战更强大的模型?特别是最新发布的运维界"重量级选手" DeepSeek-R1-Distill-SRE-Qwen-32B
!
作为一名深耕云原生和AI运维实战的技术博主,同时也是拥有十几年运维经验的老兵,我深知这个需求的迫切性。是时候给大家带来一场更震撼的实测了!
今天,我将为大家揭秘:这张从百元神卡一跃成为千元香饽饽(价格暴涨2倍)的 Tesla M40 24G,能否驾驭号称"运维界GPT"的 DeepSeek-R1-Distill-SRE-Qwen-32B?让我们一起见证这场低成本AI革命的又一个重要时刻!🚀
DeepSeek-R1-Distill-SRE-Qwen
是腾讯的技术大佬,刘天斯 ,于 2025-03-02 发布的基于DeepSeek-R1
的SRE领域大模型。
DeepSeek-R1-Distill-SRE-Qwen-32B-INT8-release
DeepSeek-R1-Distill-SRE-Qwen-32B-INT8
号称是行业首个公开的运维大模型,基于 DeepSeek-R1-Distill-Qwen-32B
模型进一步微调的专业化混合精度的 8-bit 量化大语言模型,专为 运维 与 站点可靠性工程(SRE) 场景优化。
该模型继承了 DeepSeek-R1 系列强大的推理能力,通过使用 ahmedgongi/Devops_LLM 数据集进行领域微调,显著提升了在以下任务中的实用性。
同时,发布方也考虑了算力不足的场景,同时发布了小模型 7B版本:https://www.modelscope.cn/models/phpcool/DeepSeek-R1-Distill-SRE-Qwen-7B
该模型适用于企业级系统管理、云原生运维平台开发等场景,为智能运维领域提供了兼顾性能与成本的高效解决方案。
DeepSeek-R1-Distill-Qwen-32B
bitsandbytes
、vLLM
、SGLang
该模型在运维场景中表现出色,尤其适合需要快速响应和资源优化的企业级应用。
一定要看,一定要注意!!!
由于语言模型的特性,模型生成的内容可能包含幻觉或者歧视性言论,请谨慎使用本模型生成的内容。
如果要公开使用或商用该模型服务,请注意服务方需承担由此产生的不良影响或有害言论的责任,本项目开发者不承担任何由使用本项目(包括但不限于数据、模型、代码等)导致的危害或损失。
模型发布者只提供了 32B 的 INT8 版本,完整模型文件大约 66G,官网推荐建议使用 SGLang 框架 48GB*2+ VRAM 运行完整模型。
由于本人只有一块儿 24G的 M40,无法使用 vLLM
和 SGLang
,部署完整版模型。
只能用 Ollama 体验一下,结果发现官网目前尚未提供对应的 Models。
只能自己动手将原始权重文件转化为 GGUF 格式并进行 Q4 量化,大概过程如下:
Step1:下载模型
$ mkdir -p /data/llm/modelscope/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8
$ modelscope download --model phpcool/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8 --local_dir /data/llm/modelscope/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8
Step2:转化模型格式
$ python llama.cpp/convert_hf_to_gguf.py /data/llm/modelscope/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8 --verbose
Step3:量化模型
$ llama-quantize /data/modelscope/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8-F16.gguf /data/modelscope/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8-Q4_0.gguf q4_0
Step4:制作 Ollama 可用镜像
$ ollama create deepseek-r1-sre-qwen:32b -f /data/modelscope/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8/Modelfile
小贴士:没条件自己制作镜像的读者,可以直接下载我做好的 Ollama 镜像
链接:https://pan.quark.cn/s/c3d63600b755
Ollama 模型制作完成后,我们问几个常见的运维问题测试一下效果(为了还原真实感,测试视频保留原始时长并未做加速处理)。
案例一:Linux 运维
问题: 你是一位资深运维专家,分析以下日志并定位可能的故障原因:'2025-2-10 12:00:00 ERROR: Disk I/O timeout'。
案例二:Nginx 运维
问题: 你是一位资深运维专家,分析以下日志并定位可能的故障原因:connect() failed (111: Connection refused) while connecting to upstream
案例三:k8s 问题
问题: 你是一位资深运维专家,分析以下日志并定位可能的故障原因:0/3 nodes are available: 3 Insufficient cpu (Requested: 2000m, Free: 1000m).
这个问题回答的效果还可以。
案例四:生成自动化运维脚本
任务: 你是一位资深运维专家,写一个 mysql5.7 单节点容器化自动化部署脚本
💡 惊人发现:平民玩家的"曲线救国"之路!
经过一整天的深度实测,我不得不说一个出人意料的结论:通过Q4量化压缩后的模型,在性能表现上确实出现了一些"有趣"的现象:
✅ K8s场景表现亮眼:在容器编排场景下,模型展现出接近原生水平的专业素养,这让我看到了普及大模型的希望!
❓ 其他场景略显遗憾:在Linux和Nginx运维等传统场景中,模型表现略逊预期。但请注意,这很可能是量化压缩的"代价",而不是模型本身的问题。
🎯 重要提醒: 如果预算充足的朋友,强烈建议直接上96GB显存的完整版!我个人预测:满血版本在这些场景下的表现,很可能会带来颠覆性惊喜!
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有