概述
弹性推理服务平台提供开箱即用的可观测性能力,帮助您全面洞察推理服务的运行状态。您可以在控制台通过可视化的图表,实时监控服务的核心性能指标与资源使用情况,并结合日志功能快速诊断和定位问题。
前提条件
在使用 EIS 可观测性功能前,请确保您已满足以下条件:
您已经成功开通弹性推理服务平台,并已部署了至少一个推理服务。
您已经成功开通腾讯云日志服务(CLS),并创建了用于接收推理日志的日志集和日志主题。
如果您希望将监控数据对接到自有的监控体系,请确保您已部署并运行了 Prometheus 服务。
监控
EIS 监控体系遵循自顶向下的问题排查思路,为您提供了从推理服务、节点到应用集群的三个层级监控视图,以满足业务健康度巡检、性能瓶颈定位和资源容量规划等不同运维场景的需求。
推理服务监控视图
用于业务健康度巡检。这是日常监控的主要入口,用于从业务视角快速评估服务的整体性能表现和请求处理情况。
操作路径:
1. 登录 容器服务控制台,进入弹性推理服务 > 推理服务列表。
2. 单击目标服务的名称,进入其服务详情页面。
3. 选择监控页签即可查看。
监控指标:
服务性能指标:主要关注服务响应速度和内部运行状态。响应速度指标包括 TTFT (首字延迟)、TPOT (字间延迟) 和 E2E (端到端) 请求延迟;内部状态指标包括调度器中运行和等待的请求数以及GPU KV 缓存使用率。除了上述默认指标以外,您可以手动添加更多指标,详细指标清单参见 vLLM 监控指标、SGLang 监控指标 与 Dynamo 监控指标。
服务资源指标:服务下所有实例平均的 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等。
节点监控视图
用于性能瓶颈定位。当服务指标出现异常时,可以下钻到此视图来分析具体节点的资源消耗,定位问题根源。
操作路径:
1. 在服务详情页面,选择实例列表页签。
2. 单击目标服务实例所在节点的 ID,即可跳转至该节点的监控详情页。
监控指标:
服务资源指标:该节点实时的 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等详细资源指标。
应用集群监控视图
用于资源容量规划。此视图可以评估整个应用集群的健康度和容量水位,为扩缩容等规划活动提供数据支持。
操作路径:
1. 在左侧导航栏中,单击应用集群,进入集群列表页面。
2. 单击目标集群的名称,进入其集群详情页面。
3. 选择监控页签即可查看。
监控指标:
服务资源指标:集群内所有节点聚合后的平均 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等指标。
对接自有 Prometheus
在推理服务页面,您可以配置将监控指标投递至您自有的 Prometheus 服务,以便集成到统一的告警体系中。
1. 打开推理服务页面的监控部分。
2. 开启监控功能,并填写您的 Prometheus 服务地址和相关认证信息。
日志
EIS 平台支持将服务日志自动投递至腾讯云日志服务(CLS),并提供了专为 AI 应用场景设计的结构化日志检索能力。
日志采集与投递
标准容器日志:平台默认采集并投递服务容器的标准输出和标准错误日志流。
AI 应用日志:平台支持对结构化日志的解析。通过在日志中包含特定字段,您可以启用按请求或会话维度的日志检索,极大提升 AI 应用的问题排查效率。
操作步骤
配置日志采集
您可以在创建推理服务时,为其配置日志采集规则。
1. 在新建服务或更新服务配置页面的日志部分开启日志功能。
2. 选择日志集:从下拉列表中选择一个您在 CLS 中预先创建好的日志集。
3. 选择日志主题:选择该日志集下的一个日志主题作为日志投递的目标。
查看与分析日志
1. 进入目标服务的服务详情页面。
2. 选择日志页签。
3. 在此页面,您可以实时查看服务下所有实例的日志流。您可以通过实例(Pod)筛选、关键词搜索等方式快速定位您关心的日志内容。
4. 如果需要进行更高级的检索分析,您可以在日志服务(CLS)中进行深度分析。
相关文档
关于完整的资源指标列表,请参见 Prometheus 监控服务 容器监控图表指标。
关于 vLLM 框架支持的推理监控指标,请参见 vLLM Metrics。
关于 SGLang 支持的推理监控指标,请参见 SGLang Production Metrics。
关于 Dynamo 支持的推理监控指标,请参见 Dynamo MetricsRegistry。