首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【大模型】花了30分钟,搭好一个本地能跑起来的大模型,飞机上都能用。

本文除了介绍安装大模型 phi-4 和 千问 2.5以外,还会详细介绍大模型本地部署的一些概念

我现在的生活已经离不开 AI 了,他帮我度过了许多工作中的卡壳时刻。

不过我经常遇到:

在飞机上赶方案,正好卡住,想找 AI 帮忙,但是许多航班并没有网络服务。

需要处理公司内部事务,需要 AI 帮忙分析,但是...不敢把内容传到其他平台。

急需一个本地能跑的大模型,如果能联网搜索,就更好了。

看完本文,你就能收获一个能联网搜索的本地 AI 对话软件。

本地大模型的优势:

完全免费:不用每月支付 ChatGPT Plus 的订阅费

速度飞快:本地运行,不用等待网络延迟(快慢取决于你的电脑配置)

隐私安全:所有对话都在你自己电脑上完成,数据安全有保障

完全控制:可以自由选择和调整模型

永不掉线:不需要联网也能用,在飞机上、火车上没有网络也能随时可用

简单来说,100% 本地运行,100% 安全,100% 免费。

而整个过程只需要 35 分钟,并且不需要任何编程基础。

⏱️ 安装 Ollama:10分钟

⏱️ 下载模型:15分钟(取决于网速)

⏱️ 安装浏览器插件:5分钟

⏱️ 设置和测试:5分钟

开始之前

需要检查电脑配置

/01

懒得看的可以直接跳到二节。

01

什么样的配置能跑本地模型?

简单理解,大部分能运行吃鸡的游戏都能安装大模型。

大模型的运行主要看显存,硬件配置上,最基础的配置需要至少8GB显存或统一内存,不过这种配置只能跑4bit量化(先不用管量化的概念)的7B小模型,效果和性能都比较一般。

如果想要日常使用,建议配置16GB显存,这样可以跑INT8量化的13B模型,或者完整加载7B模型,使用体验会好很多。

比较理想的配置是24GB显存,可以完整加载13B模型,量化后甚至可以跑更大的模型。

如果是专业开发,最好是 32GB及以上的显存,这样就能玩转更多大模型,也有更好的扩展性。

说到实际使用体验,消费级显卡大概需要2-4秒才能给出回复,专业显卡可以做到1-2秒,如果用CPU推理可能要等5-10秒。

另外,本地大模型运行时,最好预留30%的显存给系统开销,特别是长对话可能会逐渐累积显存占用。

02

检查我的配置

Windows用户

按下 Win + X,选择"系统",在系统页面可以查看内存大小。

按下 Win + X,选择"设备管理器",在设备管理器中可以查看显卡型号。

如果“显示适配器”显示 Inten(R) HD Graphics xxxx ,意味着你的设备是集显,虽然说不完全不能装,但可能性能会比较糟糕。

Mac用户

点击左上角苹果图标,选择"关于本机",可以看到内存大小和芯片型号。

03

基础配置要求

Windows电脑配置要求:

内存:最少 8GB,建议 16GB

显卡:需要 NVIDIA 显卡,显存至少 4GB(比如 GTX 1060 或更好的)

CPU:2014 年后的CPU一般都可以

硬盘:至少要有 20GB 的空闲空间

推荐配置:

入门级可以选 RTX 3060 12GB,

主流配置是 RTX 4080 16GB,

高端就是 RTX 4090 24GB(也可以等 5090…)。

Mac电脑配置要求:

Intel Mac:

内存:最少 8GB,建议 16GB

M系列 Mac(M4/M3/M2/M1):

统一内存:最少 8GB,建议 16GB 或以上

性能提示:统一内存越大,运行越流畅

推荐配置:

M1 Pro 及以上的机型(16GB以上统一内存)都可以尝试。

推荐 M4 Pro 以上机型,性价比最高。

开始安装 Ollama

/02

Ollama 是本地跑开源大模型最好的软件之一,不管是 windows 还是Mac,都能通过它跑各类模型。

浏览器打开ollama.com,点击下载按钮,选择对应的操作系统可以了。

安装Ollama的流程及其简单,直接无脑下一步即可。

接下来运行控制台。Windows 按下 Win + R ,输入cmd。

苹果用户找到 “终端” ,启动。

输入

ollama -v

看到下面的信息就表示安装成功了。

ollama version is 0.5.4

如果没有安装成功,请重新安装试试,或者后台留言。

挑选合适的模型

/03

已经安装好了 Ollama 之后,接下来就是选择合适的模型。

01

推荐模型

如果你平时使用英文环境,推荐:

phi-4

llama 3.2

mixtral

gemma2

如果你平时使用中文环境,推荐:

qwen2.5

glm4

如果你想要使用大模型写代码,推荐:

qwen2.5-coder

接下来,就是挑选合适的模型尺寸。

模型尺寸可以在ollama.com/search上查看

下面蓝色的标签含义是:模型支持的尺寸,比如 千问(qwen2.5)模型就有 0.5b - 72b 等多种尺寸可选。

进入模型介绍页面后,还可以点 Tags 查看模型的所有尺寸。

Ollama 的模型命名相对规则,遵循下面规则。

02

大模型的尺寸有哪些?

从小到大来说,目前主流的大模型尺寸大概:

· 1B左右的小模型能做一些基础的对话和补全:比如 llama3.2 就只有 1B。

· 7B是目前最受欢迎的尺寸,速度快而且可以应付大部分对话与思考场景。像 Llama3.1-8B、Mistral-7B都是这个大小,在家用显卡上就能跑,而且效果已经相当不错。

·13B算是性能和资源消耗的平衡点,比如 Qwen2.5-14B。这个尺寸的模型能力明显比7B强,但对硬件要求也更高。

· 30B-35B是专业级需求性价比最高的尺寸,这个档位的开源大模型不太多,一些不错的比如Yi-34B 或 Qwen2.5-32B。

· 70B现在是开源大模型的天花板级别,像Llama2-70B、Qwen2.5-72B 就是这个量级。不过一般人在本地很难跑起来,得多个显卡才行,主要是研究机构和大厂在用。

· 更大的模型比如GPT-4,参数量可能上千亿,具体多大外界也不太清楚(据说 4o-mini 只有 8b,但没有官方证实),但这种级别的模型需要大量算力和优化技术支持,一般都是通过API调用。

为了便于分辨显存和大模型之间的关系,我简单列了一个关系表。

显卡可运行大模型关系表:

03

什么是大模型量化?

什么是量化?

量化就是把AI模型中的数字变得更"简单"。原本模型里的数字精确到小数点后很多位,量化后用更简单的数字代替,这样可以让模型变得更小,运行更快。

核心概念:

用更省空间的方式表示数字。比如:

原始数字:3.14159265359 量化后:3.14

原始数字:9.99999999999 量化后:10

通俗的例子,就像微信发照片:

原图:超清晰,但文件很大

压缩图:稍微模糊一点,但文件小很多

实际聊天时,压缩图也够用

为什么要量化?

没有量化的问题:

模型太大,家用电脑带不动

运行太慢,响应不及时

需要很贵的显卡

量化后的好处:

体积变小,普通电脑也能用

运行变快,响应更及时

便宜的显卡也能跑

04

或者安装下面的模型?

了解基本概念过后,我们就可以更好地挑选合适自己的大模型了。

我们可以点击开始按钮,输入 cmd 之后回车,打开命令控制台。

Ollama 的安装指令是:

ollama run 模型名称

推荐你使用:

ollama run qwen2.5:3b

ollama run qwen2.5:7b

ollama run qwen2.5:14b

ollama run phi4

ollama run glm4

输入指令之后,如果你已经下载好了模型,就会直接进进入对话,如果没有,就会进入下载流程。

当你看到这个界面的时候,恭喜你,你已经完成了大模型的本地部署。

——The  End——

记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!

AIGC周边正在发布,关注生活,冻龄青春

推荐阅读

【软件安装】手把手教你用Ollama & AnythingLLM搭建AI知识库,无需编程,跟着做就行!

【大模型】开源中文医疗大模型(18+)概览

【大模型】医疗大模型第一股大动作!引领3000亿医疗人工智能赛道

【大模型】预训练模型

红杉资本对2025年的AI预测

【RAG】RAGFlow搭建AI医疗助手

【云部署】Win11+WSL2+Ubuntu+Docker-Desktop 支持GPU的深度学习环境搭建

【大模型】开源大模型 ChatGLM 从安装使用到定制化应用RAG

【知识库】RAG+AI工作流+Agent:全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OTVPyCDUQsnNWPRQ8aQLgZ1w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券