可观测性-Tencent Kubernetes Engine-Help & Documentation-Tencent Cloud

概述
弹性推理服务平台提供开箱即用的可观测性能力，帮助您全面洞察推理服务的运行状态。您可以在控制台通过可视化的图表，实时监控服务的核心性能指标与资源使用情况，并结合日志功能快速诊断和定位问题。
前提条件
在使用 EIS 可观测性功能前，请确保您已满足以下条件：
您已经成功开通弹性推理服务平台，并已部署了至少一个推理服务。
您已经成功开通腾讯云日志服务（CLS），并创建了用于接收推理日志的日志集和日志主题。
如果您希望将监控数据对接到自有的监控体系，请确保您已部署并运行了 Prometheus 服务。
监控
EIS 监控体系遵循自顶向下的问题排查思路，为您提供了从推理服务、节点到应用集群的三个层级监控视图，以满足业务健康度巡检、性能瓶颈定位和资源容量规划等不同运维场景的需求。
推理服务监控视图
用于业务健康度巡检。这是日常监控的主要入口，用于从业务视角快速评估服务的整体性能表现和请求处理情况。
操作路径：
1. 登录 容器服务控制台，进入弹性推理服务 > 推理服务列表。
2. 单击目标服务的名称，进入其服务详情页面。
3. 选择监控页签即可查看。
监控指标：
服务性能指标：主要关注服务响应速度和内部运行状态。响应速度指标包括 TTFT (首字延迟)、TPOT (字间延迟) 和 E2E (端到端) 请求延迟；内部状态指标包括调度器中运行和等待的请求数以及GPU KV 缓存使用率。除了上述默认指标以外，您可以手动添加更多指标，详细指标清单参见 vLLM 监控指标、SGLang 监控指标 与 Dynamo 监控指标。
服务资源指标：服务下所有实例平均的 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等。
节点监控视图
用于性能瓶颈定位。当服务指标出现异常时，可以下钻到此视图来分析具体节点的资源消耗，定位问题根源。
操作路径：
1. 在服务详情页面，选择实例列表页签。
2. 单击目标服务实例所在节点的 ID，即可跳转至该节点的监控详情页。
监控指标：
服务资源指标：该节点实时的 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等详细资源指标。
应用集群监控视图
用于资源容量规划。此视图可以评估整个应用集群的健康度和容量水位，为扩缩容等规划活动提供数据支持。
操作路径：
1. 在左侧导航栏中，单击应用集群，进入集群列表页面。
2. 单击目标集群的名称，进入其集群详情页面。
3. 选择监控页签即可查看。
监控指标：
服务资源指标：集群内所有节点聚合后的平均 GPU 使用率、GPU 显存使用量、GPU 显存使用率、CPU 使用率和内存使用率等指标。
对接自有 Prometheus
在推理服务页面，您可以配置将监控指标投递至您自有的 Prometheus 服务，以便集成到统一的告警体系中。
1. 打开推理服务页面的监控部分。
2. 开启监控功能，并填写您的 Prometheus 服务地址和相关认证信息。
日志
EIS 平台支持将服务日志自动投递至腾讯云日志服务（CLS），并提供了专为 AI 应用场景设计的结构化日志检索能力。
日志采集与投递
标准容器日志：平台默认采集并投递服务容器的标准输出和标准错误日志流。
AI 应用日志：平台支持对结构化日志的解析。通过在日志中包含特定字段，您可以启用按请求或会话维度的日志检索，极大提升 AI 应用的问题排查效率。
操作步骤
配置日志采集
您可以在创建推理服务时，为其配置日志采集规则。
1. 在新建服务或更新服务配置页面的日志部分开启日志功能。
2. 选择日志集：从下拉列表中选择一个您在 CLS 中预先创建好的日志集。
3. 选择日志主题：选择该日志集下的一个日志主题作为日志投递的目标。
查看与分析日志
1. 进入目标服务的服务详情页面。
2. 选择日志页签。
3. 在此页面，您可以实时查看服务下所有实例的日志流。您可以通过实例（Pod）筛选、关键词搜索等方式快速定位您关心的日志内容。
4. 如果需要进行更高级的检索分析，您可以在日志服务（CLS）中进行深度分析。
相关文档
关于完整的资源指标列表，请参见 Prometheus 监控服务 容器监控图表指标。
关于 vLLM 框架支持的推理监控指标，请参见 vLLM Metrics。
关于 SGLang 支持的推理监控指标，请参见 SGLang Production Metrics。
关于 Dynamo 支持的推理监控指标，请参见 Dynamo MetricsRegistry。
可观测性

On this page:

概述

前提条件

监控

推理服务监控视图

节点监控视图

应用集群监控视图

对接自有 Prometheus

日志

日志采集与投递

操作步骤

配置日志采集

查看与分析日志

相关文档