首页
学习
活动
专区
圈层
工具
发布
MCP广场 >详情页
开源LLM评估平台2026-04-06208分享添加福利群:解决AI开发者的「MCP实战痛点」
Opik 是一个开源的大型语言模型(LLM)评估平台,旨在帮助开发者构建、评估和优化 LLM 系统。它提供了全面的跟踪、评估和仪表盘功能,支持从 RAG 聊天机器人到代码助手等多种应用场景。Opik 的核心功能包括深度跟踪 LLM 调用、高级提示评估、生产环境监控、以及优化工具如 Opik Agent Optimizer 和 Opik Guardrails,以确保 LLM 应用的高效性和安全性。此外,Opik 支持多种集成和 SDK,便于开发者快速上手并集成到现有工作流中。
By comet-ml
2026-04-06208
github
详情内容

Comet Opik logo
Opik

开源LLM评估平台

Opik帮助您构建、评估和优化运行更好、更快、更便宜的LLM系统。从RAG聊天机器人到代码助手,再到复杂的代理管道,Opik提供全面的跟踪、评估、仪表板以及强大的功能,如Opik代理优化器Opik护栏,以改进和保护您在生产中的LLM应用。

Python SDK License Build Bounties

网站Slack社区Twitter更新日志文档


Opik平台截图(缩略图)

🚀 什么是Opik?

Opik(由Comet构建)是一个开源平台,旨在简化LLM应用的整个生命周期。它使开发者能够评估、测试、监控和优化他们的模型和代理系统。主要功能包括:

  • 全面可观察性:深度跟踪LLM调用、对话记录和代理活动。
  • 高级评估:强大的提示评估、LLM作为评判者和实验管理。
  • 生产就绪:可扩展的监控仪表板和生产中的在线评估规则。
  • Opik代理优化器:专用的SDK和一组优化器,用于增强提示和代理。
  • Opik护栏:帮助您实施安全和负责任的AI实践的功能。

关键能力包括:

  • 开发与跟踪

    • 在开发和生产中跟踪所有LLM调用和跟踪,并提供详细上下文(快速入门)。
    • 广泛的第三方集成,便于可观察性:无缝集成越来越多的框架,原生支持许多最大和最流行的框架(包括最近的Google ADKAutogenFlowise AI)(集成)。
    • 通过Python SDKUI注释跟踪和跨度,并提供反馈评分。
    • 提示游乐场中实验提示和模型。
  • 评估与测试

  • 生产监控与优化

    • 记录大量生产跟踪:Opik专为大规模设计(每天超过4000万次跟踪)。
    • Opik仪表板中监控反馈评分、跟踪计数和令牌使用情况。
    • 使用在线评估规则和LLM作为评判者指标识别生产问题。
    • 利用Opik代理优化器Opik护栏持续改进和保护您的LLM应用。

[!TIP] 如果您正在寻找Opik目前没有的功能,请提交新的功能请求 🚀


🛠️ Opik服务器安装

在几分钟内启动您的Opik服务器。选择最适合您需求的选项:

选项1:Comet.com云(最简单且推荐)

无需任何设置即可立即访问Opik。适合快速启动和无维护。

👉 创建您的免费Comet账户

选项2:自托管Opik以获得完全控制

在您自己的环境中部署Opik。选择Docker进行本地设置或Kubernetes进行扩展。

使用Docker Compose自托管(用于本地开发和测试)

这是运行本地Opik实例的最简单方式。注意新的.opik.sh安装脚本:

在Linux或Mac环境中:

# 克隆Opik仓库
git clone https://github.com/comet-ml/opik.git

# 进入仓库
cd opik

# 启动Opik平台
./opik.sh

在Windows环境中:

# 克隆Opik仓库
git clone https://github.com/comet-ml/opik.git

# 进入仓库
cd opik

# 启动Opik平台
powershell -ExecutionPolicy ByPass -c ".\\opik.ps1"

使用--help--info选项排查问题。Dockerfile现在确保容器以非root用户运行,以增强安全性。一切启动并运行后,您现在可以在浏览器中访问localhost:5173!有关详细说明,请参阅本地部署指南

使用Kubernetes和Helm自托管(用于可扩展部署)

对于生产或更大规模的自托管部署,Opik可以使用我们的Helm图表安装在Kubernetes集群上。点击徽章查看完整的使用Helm的Kubernetes安装指南

Kubernetes

[!IMPORTANT] 版本 1.7.0 变更:请查看 变更日志 了解重要的更新和破坏性变更。

💻 Opik 客户端 SDK

Opik 提供了一套客户端库和 REST API,用于与 Opik 服务器进行交互。这包括 Python、TypeScript 和 Ruby(通过 OpenTelemetry)的 SDK,允许无缝集成到您的工作流程中。有关详细的 API 和 SDK 参考,请参阅 Opik 客户端参考文档

Python SDK 快速入门

要开始使用 Python SDK:

安装包:

# 使用 pip 安装
pip install opik

# 或者使用 uv 安装
uv pip install opik

通过运行 opik configure 命令配置 Python SDK,该命令将提示您输入 Opik 服务器地址(用于自托管实例)或您的 API 密钥和工作区(用于 Comet.com):

opik configure

[!TIP] 您还可以从 Python 代码中调用 opik.configure(use_local=True) 来配置 SDK 以在本地自托管安装上运行,或直接提供 Comet.com 的 API 密钥和工作区详细信息。有关更多配置选项,请参阅 Python SDK 文档

现在,您可以使用 Python SDK 开始记录追踪数据。

📝 使用集成记录追踪数据

记录追踪数据的最简单方法是使用我们的直接集成之一。Opik 支持广泛的框架,包括最近的添加,如 Google ADKAutogenFlowise AI

集成 描述 文档 在 Colab 中尝试
AG2 记录 AG2 LLM 调用的追踪数据 文档 (即将推出)
aisuite 记录 aisuite LLM 调用的追踪数据 文档 在 Colab 中打开快速入门
Anthropic 记录 Anthropic LLM 调用的追踪数据 文档 在 Colab 中打开快速入门
Autogen 记录 Autogen 代理工作流的追踪数据 文档 (即将推出)
Bedrock 记录 Amazon Bedrock LLM 调用的追踪数据 文档 在 Colab 中打开快速入门
CrewAI 记录 CrewAI 调用的追踪数据 文档 在 Colab 中打开快速入门
DeepSeek 记录 DeepSeek LLM 调用的追踪数据 文档 (即将推出)
Dify 记录 Dify 代理运行的追踪数据 文档 (即将推出)
DSPy 记录 DSPy 运行的追踪数据 文档 在 Colab 中打开快速入门
Flowise AI 记录 Flowise AI 可视化 LLM 构建器的追踪数据 文档 (原生 UI 集成,请参阅文档)
Gemini 记录 Google Gemini LLM 调用的追踪数据 文档 在 Colab 中打开快速入门

[!TIP] 如果您使用的框架未在上述列表中列出,欢迎提交问题或提交包含集成的PR。

如果您没有使用上述任何框架,也可以使用track函数装饰器来记录跟踪

import opik

opik.configure(use_local=True) # 本地运行

@opik.track
def my_llm_function(user_question: str) -> str:
    # 您的LLM代码在这里

    return "Hello"

[!TIP] track装饰器可以与我们的任何集成一起使用,也可以用于跟踪嵌套函数调用。

🧑‍⚖️ LLM作为评判指标

Python Opik SDK包含多个LLM作为评判指标,帮助您评估LLM应用。在指标文档中了解更多信息。

要使用它们,只需导入相关指标并使用score函数:

from opik.evaluation.metrics import Hallucination

metric = Hallucination()
score = metric.score(
    input="法国的首都是哪里?",
    output="巴黎",
    context=["法国是欧洲的一个国家。"]
)
print(score)

Opik还包含许多预建的启发式指标,以及创建自定义指标的能力。在指标文档中了解更多信息。

🔍 评估您的LLM应用

Opik允许您通过数据集实验在开发过程中评估您的LLM应用。Opik仪表板为实验提供了增强的图表,并更好地处理大量跟踪。您还可以使用我们的PyTest集成作为CI/CD管道的一部分运行评估。

⭐ 在GitHub上给我们加星

如果您觉得Opik有用,请考虑给我们加星!您的支持帮助我们发展社区并继续改进产品。

Star History Chart

🤝 贡献

有许多方式可以为Opik做出贡献:

要了解更多关于如何为Opik做出贡献的信息,请参阅我们的贡献指南

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档