可观测性

最近更新时间:2026-01-23 16:19:32

我的收藏

概述

弹性推理服务平台提供开箱即用的可观测性能力,帮助您全面洞察推理服务的运行状态。您可以在控制台通过可视化的图表,实时监控服务的核心性能指标与资源使用情况,并结合日志功能快速诊断和定位问题。

前提条件

在使用 EIS 可观测性功能前,请确保您已满足以下条件:
您已经成功开通弹性推理服务平台,并已部署了至少一个推理服务。
您已经成功开通腾讯云日志服务(CLS),并创建了用于接收推理日志的日志集和日志主题。
如果您希望将监控数据对接到自有的监控体系,请确保您已部署并运行了 Prometheus 服务。

监控

EIS 监控体系遵循自顶向下的问题排查思路,为您提供了从推理服务、节点到应用集群的三个层级监控视图,以满足业务健康度巡检、性能瓶颈定位和资源容量规划等不同运维场景的需求。

推理服务监控视图

用于业务健康度巡检。这是日常监控的主要入口,用于从业务视角快速评估服务的整体性能表现和请求处理情况。
操作路径:
1. 登录 容器服务控制台,进入弹性推理服务 > 推理服务列表。
2. 单击目标服务的名称,进入其服务详情页面。
3. 选择监控页签即可查看。
监控指标:
服务性能指标:主要关注服务响应速度和内部运行状态。响应速度指标包括 TTFT (首字延迟)TPOT (字间延迟) E2E (端到端) 请求延迟;内部状态指标包括调度器中运行和等待的请求数以及GPU KV 缓存使用率。除了上述默认指标以外,您可以手动添加更多指标,详细指标清单参见 vLLM 监控指标SGLang 监控指标Dynamo 监控指标
服务资源指标:服务下所有实例平均的 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等。

节点监控视图

用于性能瓶颈定位。当服务指标出现异常时,可以下钻到此视图来分析具体节点的资源消耗,定位问题根源。
操作路径:
1. 服务详情页面,选择实例列表页签。
2. 单击目标服务实例所在节点的 ID,即可跳转至该节点的监控详情页。
监控指标:
服务资源指标:该节点实时的 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等详细资源指标。

应用集群监控视图

用于资源容量规划。此视图可以评估整个应用集群的健康度和容量水位,为扩缩容等规划活动提供数据支持。
操作路径:
1. 在左侧导航栏中,单击应用集群,进入集群列表页面。
2. 单击目标集群的名称,进入其集群详情页面。
3. 选择监控页签即可查看。
监控指标:
服务资源指标:集群内所有节点聚合后的平均 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等指标。

对接自有 Prometheus

推理服务页面,您可以配置将监控指标投递至您自有的 Prometheus 服务,以便集成到统一的告警体系中。
1. 打开推理服务页面的监控部分。
2. 开启监控功能,并填写您的 Prometheus 服务地址和相关认证信息。

日志

EIS 平台支持将服务日志自动投递至腾讯云日志服务(CLS),并提供了专为 AI 应用场景设计的结构化日志检索能力。

日志采集与投递

标准容器日志:平台默认采集并投递服务容器的标准输出和标准错误日志流。
AI 应用日志:平台支持对结构化日志的解析。通过在日志中包含特定字段,您可以启用按请求或会话维度的日志检索,极大提升 AI 应用的问题排查效率。

操作步骤

配置日志采集

您可以在创建推理服务时,为其配置日志采集规则。
1. 新建服务更新服务配置页面的日志部分开启日志功能。
2. 选择日志集:从下拉列表中选择一个您在 CLS 中预先创建好的日志集。
3. 选择日志主题:选择该日志集下的一个日志主题作为日志投递的目标。

查看与分析日志

1. 进入目标服务的服务详情页面。
2. 选择日志页签。
3. 在此页面,您可以实时查看服务下所有实例的日志流。您可以通过实例(Pod)筛选、关键词搜索等方式快速定位您关心的日志内容。
4. 如果需要进行更高级的检索分析,您可以在日志服务(CLS)中进行深度分析。

相关文档

关于完整的资源指标列表,请参见 Prometheus 监控服务 容器监控图表指标
关于 vLLM 框架支持的推理监控指标,请参见 vLLM Metrics
关于 SGLang 支持的推理监控指标,请参见 SGLang Production Metrics
关于 Dynamo 支持的推理监控指标,请参见 Dynamo MetricsRegistry