由客户云上购买和使用的资源实例与产品产生的监控事件包括:
事件中文名 | 事件英文名 | 事件类型 | 从属维度 | 有无恢复概念 | 事件描述 | 处理方法与建议 |
内核故障 | GuestCoreError | 异常事件 | 云服务器实例维度 | 无 | 操作系统内核 bug 或驱动问题导致操作系统内核发生致命错误 | 1. 检查系统中是否有加载内核自身携带的内核驱动以外的其它内核驱动模块。尝试不要加载这些模块,观察系统运行情况 2. 关注内核与操作系统发行版的 bug 报告,尝试升级内核解决 3. 腾讯云云服务器默认会开启 kdump,发生 panic 时一般会在 /var/crash 下生成系统内存 dump 信息,可以利用 crash 工具进行分析 |
内存 OOM | GuestOom | 异常事件 | 云服务器实例维度 | 无 | 系统内存使用过载 | 1. 评估当前系统所配置内存是否满足业务内存需求,如果需要更大的内存建议升级 CVM 内存配置 2. 通过系统日志(dmesg、/var/log/messages 等)查看 OOM 发生时 kill 掉的进程,查看进程内存使用是否符合预期,通过 valgrind 等工具分析是否存在内存泄露 |
ping 不可达 | PingUnreachable | 异常事件 | 云服务器实例维度 | 有 | 云服务器网络 ping 不可达 | 1. 检查云服务器当前的运行状态是否正常,如果发生了系统挂死等情况,可以从控制台重启(强制重启)恢复 2. 如果云服务器当前运行正常,检查云服务器网络配置,包括:云服务器内部的网络服务、防火墙、云服务器安全组设置等 |
磁盘只读 | DiskReadonly | 异常事件 | 云服务器实例维度 | 有 | 磁盘无法写入数据 | 1. 检查磁盘的存储是否存在已满情况。 2. Linux 操作系统可以查看 inode(df -i)是否有耗尽的情况。 3. 检查文件系统是否损坏 |
机器重启 | GuestReboot | 异常事件 | 云服务器实例维度 | 无 | 云服务器重启 | 当云服务器被重启的时候,会触发该事件,请根据实际情况查看状态变更是否符合预期 |
外网出带宽超限导致丢包 | PacketDroppedByQosWanOutBandwidth | 异常事件 | 云服务器实例维度 | 有 | 云服务器实例外网出带宽超过主机的外网出带宽限制导致丢包。带宽毛刺导致的丢包不会体现在带宽图表中,原因:带宽最细统计粒度为 10 级(10 秒内总流量/10 秒)。若常量带宽没有明显超出也可忽略 | 提高外网带宽上限。如果已达到可购买的最高上限,可通过负载均衡等方式降低单机带宽 |
子机 nvme 设备 error | NvmeError | 异常事件 | 云服务器实例维度 | 无 | 子机 nvme 盘故障导致掉盘 | 1. 隔离问题盘的读写,卸载对应目录 2. 提交工单 并等待技术人员换盘3. 换盘完成,格式化新盘后使用 |
实例已重启(宿主机系统错误) | GuestRestarted_HostFailure | 异常事件 | 云服务器实例维度 | 无 | 云服务器所在宿主机异常,目前已完成故障规避并重启。 | 需要您确认业务是否已恢复正常,若已恢复正常则可忽略。 |
实例计划重启(宿主机系统维护) | GuestScheduledToRes | 异常事件 | 云服务器实例维度 | 无 | 云服务器所在宿主机异常,目前正在修复中。 | 如您的业务具有灾备能力请及时切换并授权维修。 |
实例运行隐患待授权 | InstanceRunningRisksInquiring | 异常事件 | 云服务器实例维度 | 无 | 实例存在运行隐患,需要授权维修 | |
实例运行隐患处理中 | InstanceRunningRisksExecuting | 异常事件 | 云服务器实例维度 | 无 | 实例存在运行隐患,当前正在处理中 | |
实例运行隐患已完成 | InstanceRunningRisksExecuted | 异常事件 | 云服务器实例维度 | 无 | 实例运行隐患已修复完成 | |
实例运行隐患已取消 | InstanceRunningRisksCanceled | 异常事件 | 云服务器实例维度 | 无 | 告警实例对应的维修任务已被系统取消 | 系统已取消本次维修任务,无需操作 |
实例运行隐患已避免 | InstanceRunningRisksAvoided | 异常事件 | 云服务器实例维度 | 无 | 用户对实例的操作避免了本次维修任务 | 本次维修任务已避免,无需操作 |
实例运行异常待授权 | InstanceRunningAbnormallyInquiring | 异常事件 | 云服务器实例维度 | 无 | 实例发生运行异常,需要授权维修 | |
实例运行异常处理中 | InstanceRunningAbnormallyExecuting | 异常事件 | 云服务器实例维度 | 无 | 实例发生运行异常,当前正在处理中 | |
实例运行异常已完成 | InstanceRunningAbnormallyExecuted | 异常事件 | 云服务器实例维度 | 无 | 实例运行异常已修复完成 | |
实例运行异常已取消 | InstanceRunningAbnormallyCanceled | 异常事件 | 云服务器实例维度 | 无 | 告警实例对应的维修任务已被系统取消 | 系统已取消本次维修任务,无需操作 |
实例运行异常已避免 | InstanceRunningAbnormallyAvoided | 异常事件 | 云服务器实例维度 | 无 | 用户对实例的操作避免了本次维修任务 | 本次维修任务已避免,无需操作 |
实例硬盘异常待授权 | InstanceDiskErrorInquiring | 异常事件 | 云服务器实例维度 | 无 | 实例发生硬盘异常,需要授权维修 | |
实例硬盘异常处理中 | InstanceDiskErrorExecuting | 异常事件 | 云服务器实例维度 | 无 | 实例发生硬盘异常,当前正在处理中 | |
实例硬盘异常已完成 | InstanceDiskErrorExecuted | 异常事件 | 云服务器实例维度 | 无 | 实例硬盘异常已修复完成 | |
实例硬盘异常已取消 | InstanceDiskErrorCanceled | 异常事件 | 云服务器实例维度 | 无 | 告警实例对应的维修任务已被系统取消 | 系统已取消本次维修任务,无需操作 |
实例硬盘异常已避免 | InstanceDiskErrorAvoided | 异常事件 | 云服务器实例维度 | 无 | 用户对实例的操作避免了本次维修任务 | 本次维修任务已避免,无需操作 |
实例网络连接异常通知 | InstanceNetworkErrorInquiring | 异常事件 | 云服务器实例维度 | 无 | 实例发生网络连接异常,需要授权维修 | |
实例网络连接异常处理中 | InstanceNetworkErrorExecuting | 异常事件 | 云服务器实例维度 | 无 | 实例发生网络连接异常,当前正在处理中 | |
实例网络连接异常已完成 | InstanceNetworkErrorExecuted | 异常事件 | 云服务器实例维度 | 无 | 实例网络连接异常已修复完成 | |
实例网络连接异常已取消 | InstanceNetworkErrorCanceled | 异常事件 | 云服务器实例维度 | 无 | 告警实例对应的维修任务已被系统取消 | 系统已取消本次维修任务,无需操作 |
实例网络连接异常已避免 | InstanceNetworkErrorAvoided | 异常事件 | 云服务器实例维度 | 无 | 用户对实例的操作避免了本次维修任务 | 本次维修任务已避免,无需操作 |