组件介绍
变更记录
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2026-01-13 | 1.1.0 | 主要功能变更: 1. 新增 GPU 硬件监控:支持温度、功率、NVLink、ECC 错误、行重映射、退役页、PCIe 等全面检测。 2. 新增 XID 错误监控:支持致命/警告/应用级 XID 分类检测。 3. 新增 CRI 接口健康检查:检测容器运行时接口健康状态。 4. 新增 NTP 服务监控:支持 ntpd 和 chronyd 两种 NTP 服务。 5. 监控器细粒度控制:支持单独启用/禁用每个监控器。 6. 配置结构优化:重构 values.yaml,按监控类型分组,新增自定义指标配置。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2025-09-05 | 1.0.6 | 修复异常上报 FrequentKubeletRestart/FrequentDockerRestart/FrequentContainerdRestart 事件到 node 的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2025-08-19 | 1.0.5 | 增强 NPD 的能力,使其在检测到 Pod OOM 时,能够直接将事件上报到对应的 Pod 对象。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-12-05 | 1.0.4 | 基础镜像升级切换至 TencentOS Server 4 版本,修复 Ubuntu18.08 漏洞,提高镜像安全性。 监控能力增强:新增 Metrics 接口支持,提供 Prometheus 格式的监控指标,便于集成至监控系统。 服务检查优化:修复 Docker 与 Containerd 服务状态检查逻辑,消除因误判导致的冗余警告信息。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-07-26 | 1.0.3 | 内核兼容性修复:解决 Linux 5.4 内核环境下 OOM(Out Of Memory)事件信息获取异常的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |