在线模式

最近更新时间:2025-04-17 15:08:12

我的收藏
TACO-LLM 提供了实现 OpenAI CompletionsChat API 的 HTTP 服务端,您可以按照以下流程进行使用。

启动服务

首先,执行以下命令启动服务:
taco_llm serve facebook/opt-125m --api-key taco-llm-test

发送请求

您可以使用 OpenAI 的官方 Python 客户端来发送请求:
from openai import OpenAI

client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="taco-llm-test",
)

completion = client.chat.completions.create(
model="facebook/opt-125m",
messages=[
{"role": "user", "content": "Hello!"}
]
)

print(completion.choices[0].message)
您也可以直接使用 HTTP 客户端来发送请求:
import requests

api_key = "taco-llm-test"

headers = {
"Authorization": f"Bearer {api_key}"
}

pload = {
"prompt": "Hello!",
"stream": True,
"max_tokens": 128,
}

response = requests.post("http://localhost:8000/v1/completions",
headers=headers,
json=pload,
stream=True)

for chunk in response.iter_lines(chunk_size=8192,
decode_unicode=False,
delimiter=b"\\0"):
if chunk:
data = json.loads(chunk.decode("utf-8"))
output = data["text"][0]
print(output)

完整服务端参数配置

执行 taco_llm serve -h 命令可以查看 TACO-LLM 完整的在线模式参数配置,详细内容请参见:在线模式 API

完整客户端参数配置

除了少部分参数不支持外,TACO-LLM 完全支持 OpenAI 的参数配置。您可以参见 OpenAI API 官方文档查看完整的 API 参数配置。不支持的少部分参数配置如下:
Chat: tools, and tool_choice。
Completions: suffix。