AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

LDG_AGI

发布于 2024-08-13 15:55:58

1.3K00

代码可运行

文章被收录于专栏：人工智能极简应用人工智能极简应用

运行总次数：0

代码可运行

一.引言

身处2024年，大模型技术从底层模型到AI应用都卷的要命，我们可以说是幸运的，也可以是幸福的，当然，学习的路上，不停的追赶，必定是疲惫的。分享一些丝滑的大模型技术栈内的项目，让大家疲惫并快乐着。

今天要讲的是一个大模型推理服务框架-Ollama，对比的还有Xinference、OpenLLM、LocalAI，从丝滑角度而言（这里特别强调一下，我所讲的丝滑，指的是众所周知的网络环境下，学习、部署、应用等环节，坑最少，最易上手），Ollama>=Xinference>LocalAI>OpenLLM。今天重点将Ollama，其他框架另起篇幅。

二.一行代码完成Ollama本地部署

这里由衷推荐docker部署，一行代码搞定

 docker run -d --gpus=all -v /yourworkspaces/Ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

docker参数：

-d：后台运行

--gpus=all：使用所有的gpu

-v /xxx/ollama:/root/.ollama：-v是目录挂载参数，“:”前后指将container目录/root/.ollama挂载至本地目录/xxx/ollama上

-p 11434:11434：-p是端口映射参数，“:”前指宿主机对外端口，“:”后指container服务端口

--name：container启动后的名称，启动后docker stop，docker restart均要接这个名称，如果未制定随机生成一个

ollama/ollama：docker hub库中发行商及项目，实际地址为https://hub.docker.com/r/ollama/ollama

执行docker命令后，会从docker hub库中pull镜像，大约30秒左右完成container部署

docker ps查看container状态：

CONTAINER ID：随机生成的容器ID

IMAGE：container启动依赖的镜像，这里是ollama/ollama

COMMAND：container启动后自动执行的命令，这里是/bin/ollama serve

CREATED：启动时间

STATUS：服务了多长时间

PORTS：端口映射，0:0:0:0:11434指container内端口，11434/tcp指宿主机端口

浏览器输入宿主机ip比如123.123.123.123:11434，页面出现如下提示即为启动成功。

三.一行代码使用Ollama部署大语言模型推理服务

还是一行代码，比如部署mistral

docker exec -it ollama ollama run mistral

仅需要大概1分钟，ollama会从自己的库中将模型pull至本地，万兆网卡下达100MB/s，跟modelscope速度相当。

四.推理服务测试

1.终端命令行运行

如图，直接对话即可

2.curl运行

generate补全：

curl http://123.123.123.123:11434/api/generate -d '{  "model": "mistral",  "prompt":"who are you?","stream":false}'

返回结果：

chat对话：

curl http://123.123.123.123:11434/api/chat -d '{  "model": "mistral",  "messages": [    { "role": "user", "content": "why is the sky blue?" }  ],"stream":false}'

返回结果：