我们正处在 AI Agent 驱动的范式转换前夜。它们不再是简单的文本生成器,而是能够理解复杂指令、自主规划多步任务、调用各类 API 与数字世界交互的 “数字工作者”。为大型语言模型赋予 “执行臂膀” 后,Agent 已成为企业应用中的 “能力放大器”。
传统微服务或 Web 应用的 “Metrics → Logs → Traces” 可观测模型,仅能回答 “发生了什么”,却无法解释 Agent 场景下的核心问题:
下文将构建一套从行为洞察到质量评估、从成本监控到闭环优化的多维度可观测框架,覆盖 Agent 全生命周期的监控与优化需求。
Agent 可观测性是多维度概念,既包含传统应用监控指标,更需聚焦 AI 特有行为特征 —— 需监控从用户输入到最终输出的全流程,包括模型调用、推理过程、工具使用等环节。核心聚焦指标与追踪两大维度,实现问题定位、性能优化与体验提升。
时间维度指标直接反映 Agent 性能,是用户体验的核心影响因素:
Token 消耗直接关联运营成本与资源效率,需精准监控:
工具调用是 Agent 与外部系统交互的核心方式,其效率直接影响任务成功率:
追踪(Tracing)是 Agent 可观测性的核心 —— 相比指标的 “结果化” 和日志的 “碎片化”,追踪能提供决策过程的完整上下文链路,解释 “为什么” 和 “如何交互”。基于 OpenTelemetry 标准,Agent 追踪通过Trace ID(完整会话标识)和Span ID(单个操作标识)构建层次化执行树,记录从用户输入到响应生成的全流程。
Agent 追踪需遵循 OpenTelemetry 标准,实现数据标准化采集与传输:
opentelemetry-instrument 命令快速集成)。json
{
"name": "chat",
"context": {
"trace_id": "0x68888fcdba6326c1fc004fe9396ad6a8",
"span_id": "0x4f4c5c4caf92a36d",
"trace_state": "[]"
},
"kind": "SpanKind.CLIENT",
"parent_id": "0xbc776902450f8294",
"start_time": "2025-07-29T09:09:33.427326Z",
"end_time": "2025-07-29T09:09:34.932205Z",
"status": { "status_code": "OK" },
"attributes": {
"session.id": "session-1234",
"gen_ai.system": "strands-agents",
"gen_ai.operation.name": "chat",
"gen_ai.request.model": "claude-3-5-haiku",
"gen_ai.usage.prompt_tokens": 443,
"gen_ai.usage.completion_tokens": 76,
"gen_ai.usage.total_tokens": 519
},
"events": [
{
"name": "gen_ai.user.message",
"timestamp": "2025-07-29T09:09:33.427368Z",
"attributes": {
"content": "[{\"text\": \"Research and recommend suitable travel destinations for China traditional culture experience in Beijing. Use web search for current info.\"}]"
}
},
{
"name": "gen_ai.choice",
"timestamp": "2025-07-29T09:09:34.932167Z",
"attributes": {
"finish_reason": "tool_use",
"message": "[{\"text\": \"I'll search for traditional cultural experiences in Beijing.\"}, {\"toolUse\": {\"toolUseId\": \"tooluse_JSt-cJ9fRU28RmhdJ1XENA\", \"name\": \"web_search\", \"input\": {\"query\": \"Top traditional cultural attractions in Beijing 2024\"}}}]"
}
}
],
"resource": {
"attributes": {
"telemetry.sdk.language": "python",
"telemetry.sdk.name": "opentelemetry",
"service.name": "agentic-travel-strands"
}
}
}该样本展示了 Strands Agent 框架的 OpenTelemetry 原生集成能力:自动捕获用户消息、模型选择、工具调用参数、Token 消耗等关键信息,遵循 OpenTelemetry GenAI 语义约定,确保数据标准化与互操作性。
生产环境中,通常部署 OpenTelemetry Collector 作为数据中间处理层,实现:
Agent 可观测性可通过成熟开源工具快速落地,无需依赖特定云厂商,以下为主流实现方案:
MLFlow 是开源机器学习生命周期管理工具,其 Tracking 模块可深度适配 Agent 追踪需求,支持记录中间步骤的输入、输出、元数据,准确定位错误根源。
python
运行
import mlflow
from mlflow.tracing import SpanType
# 定义追踪装饰器,标记不同执行环节
@mlflow.trace(name="agent_model_load", attributes={"model_type": "claude-3-5-haiku"}, span_type=SpanType.LLM)
def load_agent_model():
# 模型加载逻辑
return model
@mlflow.trace(name="agent_initialization", attributes={"tool_count": 3}, span_type=SpanType.AGENT)
def create_agent(model):
# Agent 初始化逻辑(绑定工具、设置提示词)
return agent
@mlflow.trace(name="agent_task_execution", attributes={"task_type": "travel_recommendation"}, span_type=SpanType.CHAIN)
def run_agent_task(agent, query):
# 执行 Agent 任务
return agent.run(query)
# 启动追踪运行
with mlflow.start_run(run_name="beijing_travel_recommendation"):
model = load_agent_model()
agent = create_agent(model)
result = run_agent_task(agent, "推荐北京传统文化体验目的地,需查询最新场馆信息")在 MLFlow Tracking Server 前端的 Trace 选项卡中,可查看完整执行链路:
agent_task_execution 包含 model_inference 和 web_search 子 Span)。Langfuse 是专为 LLM 应用设计的开源可观测性平台,聚焦 Agent 全生命周期监控,提供追踪、评估、成本分析一体化能力,是 Agent 可观测性的首选开源工具之一。
以 “电商售后智能客服 Agent” 为例(基于 Strands Agent 构建,支持订单查询、售后处理、退款申请等功能,集成电商系统 API 工具),展示可观测性组件在开发、测试、生产阶段的运维实践。
上线 Claude 3.7 和 Nova Lite 两种模型,需对比其在售后咨询场景的性能、成本与效果,选择最优模型。
将主模型从 Claude 3.7 切换为 Nova Lite 后,部分售后咨询出现工具调用失败,错误提示 “参数格式不合法”。
order_id 参数格式不一致 ——Claude 3.7 输出为字符串格式(如 "12345"),而 Nova Lite 输出为数字格式(如 12345),导致电商 API 接口解析失败。为售后客服 Agent 新增 “卖家销售额查询” 功能(接入电商系统 MySQL 数据库),需验证功能可用性与性能。
随着 AI Agent 在企业应用中的深度渗透,可观测性已从 “辅助工具” 升级为 “核心基础设施”。传统监控仅能反映 “运行状态”,而 Agent 可观测性需穿透 “黑盒”,理解 “思考过程”—— 从意图理解到工具调用,从推理链条到最终输出的全流程洞察。
本文提出的多维度可观测框架,以 “指标 + 追踪” 为核心,结合 MLFlow、Langfuse 等开源工具,实现 Agent 性能、成本、质量的全方位监控。实践中,建议:
只有真正 “看见” 和 “理解” Agent 的行为,才能充分释放其潜力,让 AI 成为企业的智能助手与效率倍增器。未来,Agent 可观测性将向 “智能化” 方向演进 —— 通过 LLM 自动分析追踪数据、识别潜在问题、生成优化建议,进一步降低运维成本,提升 Agent 可靠性与实用性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。