NodeProblemDetectorPlus(节点监测)

最近更新时间:2026-01-13 14:14:22

我的收藏

组件介绍

组件详情请参见 NodeProblemDetectorPlus 说明

变更记录

发布时间
版本号
变更内容
限制和影响
2026-01-13
1.1.0
主要功能变更:
1. 新增 GPU 硬件监控:支持温度、功率、NVLink、ECC 错误、行重映射、退役页、PCIe 等全面检测。
2. 新增 XID 错误监控:支持致命/警告/应用级 XID 分类检测。
3. 新增 CRI 接口健康检查:检测容器运行时接口健康状态。
4. 新增 NTP 服务监控:支持 ntpd 和 chronyd 两种 NTP 服务。
5. 监控器细粒度控制:支持单独启用/禁用每个监控器。
6. 配置结构优化:重构 values.yaml,按监控类型分组,新增自定义指标配置。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2025-09-05
1.0.6
修复异常上报 FrequentKubeletRestart/FrequentDockerRestart/FrequentContainerdRestart 事件到 node 的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2025-08-19
1.0.5
增强 NPD 的能力,使其在检测到 Pod OOM 时,能够直接将事件上报到对应的 Pod 对象。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-12-05
1.0.4
基础镜像升级切换至 TencentOS Server 4 版本,修复 Ubuntu18.08 漏洞,提高镜像安全性。
监控能力增强:新增 Metrics 接口支持,提供 Prometheus 格式的监控指标,便于集成至监控系统。
服务检查优化:修复 Docker 与 Containerd 服务状态检查逻辑,消除因误判导致的冗余警告信息。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-07-26
1.0.3
内核兼容性修复:解决 Linux 5.4 内核环境下 OOM(Out Of Memory)事件信息获取异常的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。