开源LLM评估平台添加福利群:解决AI开发者的「MCP实战痛点」Opik帮助您构建、评估和优化运行更好、更快、更便宜的LLM系统。从RAG聊天机器人到代码助手,再到复杂的代理管道,Opik提供全面的跟踪、评估、仪表板以及强大的功能,如Opik代理优化器和Opik护栏,以改进和保护您在生产中的LLM应用。
网站 • Slack社区 • Twitter • 更新日志 • 文档
Opik(由Comet构建)是一个开源平台,旨在简化LLM应用的整个生命周期。它使开发者能够评估、测试、监控和优化他们的模型和代理系统。主要功能包括:
关键能力包括:
开发与跟踪:
评估与测试:
生产监控与优化:
[!TIP] 如果您正在寻找Opik目前没有的功能,请提交新的功能请求 🚀
在几分钟内启动您的Opik服务器。选择最适合您需求的选项:
无需任何设置即可立即访问Opik。适合快速启动和无维护。
在您自己的环境中部署Opik。选择Docker进行本地设置或Kubernetes进行扩展。
这是运行本地Opik实例的最简单方式。注意新的.opik.sh安装脚本:
在Linux或Mac环境中:
# 克隆Opik仓库
git clone https://github.com/comet-ml/opik.git
# 进入仓库
cd opik
# 启动Opik平台
./opik.sh

在Windows环境中:
# 克隆Opik仓库
git clone https://github.com/comet-ml/opik.git
# 进入仓库
cd opik
# 启动Opik平台
powershell -ExecutionPolicy ByPass -c ".\\opik.ps1"

使用--help或--info选项排查问题。Dockerfile现在确保容器以非root用户运行,以增强安全性。一切启动并运行后,您现在可以在浏览器中访问localhost:5173!有关详细说明,请参阅本地部署指南。
对于生产或更大规模的自托管部署,Opik可以使用我们的Helm图表安装在Kubernetes集群上。点击徽章查看完整的使用Helm的Kubernetes安装指南。
[!IMPORTANT] 版本 1.7.0 变更:请查看 变更日志 了解重要的更新和破坏性变更。
Opik 提供了一套客户端库和 REST API,用于与 Opik 服务器进行交互。这包括 Python、TypeScript 和 Ruby(通过 OpenTelemetry)的 SDK,允许无缝集成到您的工作流程中。有关详细的 API 和 SDK 参考,请参阅 Opik 客户端参考文档。
要开始使用 Python SDK:
安装包:
# 使用 pip 安装
pip install opik
# 或者使用 uv 安装
uv pip install opik

通过运行 opik configure 命令配置 Python SDK,该命令将提示您输入 Opik 服务器地址(用于自托管实例)或您的 API 密钥和工作区(用于 Comet.com):
opik configure
[!TIP] 您还可以从 Python 代码中调用
opik.configure(use_local=True)来配置 SDK 以在本地自托管安装上运行,或直接提供 Comet.com 的 API 密钥和工作区详细信息。有关更多配置选项,请参阅 Python SDK 文档。
现在,您可以使用 Python SDK 开始记录追踪数据。
记录追踪数据的最简单方法是使用我们的直接集成之一。Opik 支持广泛的框架,包括最近的添加,如 Google ADK、Autogen 和 Flowise AI:
| 集成 | 描述 | 文档 | 在 Colab 中尝试 |
|---|---|---|---|
| AG2 | 记录 AG2 LLM 调用的追踪数据 | 文档 | (即将推出) |
| aisuite | 记录 aisuite LLM 调用的追踪数据 | 文档 | |
| Anthropic | 记录 Anthropic LLM 调用的追踪数据 | 文档 | |
| Autogen | 记录 Autogen 代理工作流的追踪数据 | 文档 | (即将推出) |
| Bedrock | 记录 Amazon Bedrock LLM 调用的追踪数据 | 文档 | |
| CrewAI | 记录 CrewAI 调用的追踪数据 | 文档 | |
| DeepSeek | 记录 DeepSeek LLM 调用的追踪数据 | 文档 | (即将推出) |
| Dify | 记录 Dify 代理运行的追踪数据 | 文档 | (即将推出) |
| DSPy | 记录 DSPy 运行的追踪数据 | 文档 | |
| Flowise AI | 记录 Flowise AI 可视化 LLM 构建器的追踪数据 | 文档 | (原生 UI 集成,请参阅文档) |
| Gemini | 记录 Google Gemini LLM 调用的追踪数据 | 文档 |
[!TIP] 如果您使用的框架未在上述列表中列出,欢迎提交问题或提交包含集成的PR。
如果您没有使用上述任何框架,也可以使用track函数装饰器来记录跟踪:
import opik
opik.configure(use_local=True) # 本地运行
@opik.track
def my_llm_function(user_question: str) -> str:
# 您的LLM代码在这里
return "Hello"

[!TIP]
track装饰器可以与我们的任何集成一起使用,也可以用于跟踪嵌套函数调用。
Python Opik SDK包含多个LLM作为评判指标,帮助您评估LLM应用。在指标文档中了解更多信息。
要使用它们,只需导入相关指标并使用score函数:
from opik.evaluation.metrics import Hallucination
metric = Hallucination()
score = metric.score(
input="法国的首都是哪里?",
output="巴黎",
context=["法国是欧洲的一个国家。"]
)
print(score)

Opik还包含许多预建的启发式指标,以及创建自定义指标的能力。在指标文档中了解更多信息。
Opik允许您通过数据集和实验在开发过程中评估您的LLM应用。Opik仪表板为实验提供了增强的图表,并更好地处理大量跟踪。您还可以使用我们的PyTest集成作为CI/CD管道的一部分运行评估。
如果您觉得Opik有用,请考虑给我们加星!您的支持帮助我们发展社区并继续改进产品。
有许多方式可以为Opik做出贡献:
要了解更多关于如何为Opik做出贡献的信息,请参阅我们的贡献指南。