文章/答案/技术大牛

发布

基于 Requests 与 Ollama 的本地大模型交互全栈实践指南

文章来源：企鹅号 - Python私教

一、核心架构与技术定位

Ollama 作为当前最热门的本地大模型运行框架，通过轻量级服务化设计实现了模型推理与管理的高度封装。其核心价值在于将复杂的模型加载、硬件调度、上下文管理等流程简化为统一的 HTTP 接口，而 Python 的 requests 库作为业界标准的 HTTP 客户端工具，与 Ollama 的结合为开发者提供了灵活且高效的控制能力。

二、环境搭建与基础配置

1. Ollama 服务启动

本地运行 Ollama 服务是交互的前提：

# 启动服务并保持后台运行

ollama serve

默认监听http://localhost:11434端口，可通过--host和--port参数调整网络配置。

2. 模型加载与验证

通过命令行快速加载示例模型：

ollama run llama3.2

此命令将自动下载并启动 70 亿参数的 Llama3.2 模型，为后续 API 调用奠定基础。

三、基础交互实现

1. 单次文本生成

使用/api/generate端点实现基础问答：

import requests

def generate_text(prompt, model="llama3.2"):

url ="http://localhost:11434/api/generate"

data ={

"model": model,

"prompt": prompt,

"stream":False

}

response = requests.post(url, json=data)

return response.json()["response"]

# 示例：科学问答

response = generate_text("请用通俗语言解释量子纠缠现象")

print(response)

该实现通过stream=False参数获取完整响应，适合对实时性要求不高的场景。

2. 多轮对话管理

/api/chat端点支持上下文关联的连续对话：

messages =[]

def chat_interaction(text):

global messages

messages.append({"role":"user","content": text})

response = requests.post(

"http://localhost:11434/api/chat",

json={

"model":"deepseek-r1:14b",

"messages": messages,

"stream":False

}

).json()

messages.append(response["message"])

return response["message"]["content"]

# 连续对话示例

chat_interaction("推荐三本适合初学者的量子力学书籍")

chat_interaction("其中哪本对数学要求最低？")

通过维护 messages 列表实现对话历史管理，模型自动解析上下文关联。

四、高级功能实现

1. 流式响应处理

处理大文本生成时的实时输出：

def stream_generation(prompt):

response = requests.post(

"http://localhost:11434/api/generate",

json={"model":"llama3.2","prompt": prompt,"stream":True},

stream=True

)

full_response =""

for chunk in response.iter_lines():

if chunk:

data = json.loads(chunk.decode('utf-8'))

ifnot data["done"]:

print(data["response"], end='', flush=True)

full_response += data["response"]

return full_response

该方案通过分块处理实现逐词输出效果，显著提升用户体验。

2. 结构化输出控制

利用 format 参数约束生成格式：

schema ={

"type":"object",

"properties":{

"book_title":{"type":"string"},

"author":{"type":"string"},

"publish_year":{"type":"integer"},

"difficulty_level":{"type":"string","enum":["beginner","intermediate","advanced"]}

}

response = requests.post(

"http://localhost:11434/api/generate",

json={

"model":"llama3.2",

"prompt":"请按JSON格式描述《量子力学基础》一书",

"format": schema

}

).json()

该特性特别适合需要对接自动化系统的场景，确保输出数据可直接解析入库。

3. 多模态交互

支持图像输入的混合模态处理：

import base64

with open("ct_scan.jpg","rb")as image_file:

encoded_image = base64.b64encode(image_file.read()).decode('utf-8')

response = requests.post(

"http://localhost:11434/api/generate",

json={

"model":"llava:7b",

"prompt":"描述这张CT影像的异常区域",

"images":[encoded_image]

}

)

此实现展示了医疗影像分析场景的典型应用，模型可同步处理视觉与文本信息。

五、性能优化与生产实践

1. 连接池管理

通过 Session 对象重用 TCP 连接：

session = requests.Session()

def optimized_request(prompt):

response = session.post(

"http://localhost:11434/api/generate",

json={"model":"llama3.2","prompt": prompt}

)

return response.json()

该优化可减少 30% 以上的请求延迟，显著提升高并发场景性能。

2. 超时与重试机制

增强系统鲁棒性：

from requests.adapters importHTTPAdapter

from requests.packages.urllib3.util.retry importRetry

retry_strategy =Retry(

total=3,

backoff_factor=1,

status_forcelist=[500,502,503,504]

)

adapter =HTTPAdapter(max_retries=retry_strategy)

session.mount("http://", adapter)

3. 资源监控集成

实时获取模型运行状态：

status = requests.get("http://localhost:11434/api/tags").json()

print(f"已加载模型: {[model['name'] for model in status['models']]}")

六、安全加固方案

1. 传输加密

启用 HTTPS 并配置 TLS 证书：

# 启动服务时配置加密

ollama serve --tls-cert cert.pem --tls-key key.pem

2. 访问控制

通过 Nginx 配置 IP 白名单：

location /{

proxy_pass http://localhost:11434;

allow 192.168.1.0/24;

deny all;

}

3. 输入净化

防范提示注入攻击：

import re

def sanitize_input(text):

cleaned = re.sub(r"[;\\$`]","", text)

return cleaned[:1000]# 限制输入长度

结语

通过 requests 库与 Ollama 的深度整合，开发者能够以极简的代码实现对大模型的精准控制。这种组合既保留了本地化部署的数据安全性，又具备云服务的灵活扩展性，为金融分析、智能客服、医疗诊断等场景提供了可靠的技术基础。随着 Ollama 生态的持续完善，基于 HTTP 协议的标准交互模式必将成为企业级 AI 应用的核心架构范式。

发表于: 2025-04-262025-04-26 08:34:31
原文链接：https://page.om.qq.com/page/OmCO57nny4oiujTNBunl8pjQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

基于 Requests 与 Ollama 的本地大模型交互全栈实践指南

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐