首页
学习
活动
专区
圈层
工具
发布

在家搭建你自己的AI编程助手:一套完全开源的本地方案

最近有个话题在技术圈子里很火:能不能在家里搭一套本地运行的AI编程助手,完全不依赖云端服务?

答案是可以的。有人用OpenCode加上llama.cpp,再配合GLM-4.7 Flash模型,在自己的机器上跑出了相当不错的效果。

先说硬件配置。这位开发者用的是三张3090显卡,128GB内存,上下文窗口开到了20万token。听起来配置不低,但实际上很多人用单卡也能跑。有人用4070Ti在5万上下文下跑出45 token每秒,有人用7900 XTX在零上下文时达到120 token每秒。关键在于参数调优和版本选择。

这里有个重要提醒:一定要用最新版本的llama.cpp。LM Studio和Ollama虽然底层也是llama.cpp,但版本往往滞后。GLM-4.7 Flash最近有多个修复补丁合并进主分支,用旧版本可能会遇到各种奇怪问题,比如输出循环、工具调用失败等等。

说到实际效果,这套方案能做什么?有人让它从一个简单的示例程序出发,自动生成了一个完整的多智能体辩论系统,包含配置文件、代理类、管理器、入口脚本,甚至还自动写了单元测试。整个过程没有人工干预测试部分,模型自己判断需要写测试就写了。

当然,本地方案和云端服务还是有差距的。有人测试发现,同样的任务Claude Code几分钟搞定,本地模型可能会卡在某个错误上反复尝试。这不是框架的问题,是模型能力的差异。但换个角度想,这已经是能在消费级硬件上运行的最强开源方案之一了。

有个有趣的发现:GLM-4.7 Flash在8bit量化下表现稳定,但4bit量化容易出现循环。这是目前发现的第一个量化精度对输出质量有明显影响的小模型。

关于电费的问题,有人算过一笔账。即使用5090显卡全天候满载运行,按美国最贵的电价每度40美分计算,一个月电费大约165美元。大多数人的实际使用强度远低于此,加上平均电价只有一半左右,实际成本可能只有几十美元。

最后说说工具选择。OpenCode是一个开源的编程助手框架,可以配置MCP服务器实现向量检索、网页搜索等扩展功能。有人问为什么不直接用Claude Code配本地模型,答案很简单:目标是搭建一套完全开源、完全本地的方案。这不仅是技术选择,也是一种态度。

能在自己的机器上运行一个接近商业水准的AI编程助手,这件事本身就值得兴奋。技术进步的速度超出想象,今天的不可能很快就会变成明天的标配。

reddit.com/r/LocalLLaMA/comments/1qqpon2/opencode_llamacpp_glm47_flash_claude_code_at_home

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OM3td0uCworBoouctA0GpKtw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券