操作指南

云产品指标

API 文档

文档中心 > 云监控 > 故障处理 > 云服务器无监控数据

云服务器无监控数据

最近更新时间:2021-04-06 16:05:10

简介

云服务器指标数据采集依赖于监控Agent。 若您没法正常获取监控指标数据,请参考本文排查故障。
建议您首先根据 安装监控组件 重新安装监控Agent,并等待3分钟查看监控数据是否恢复。若安装遇到问题或监控数据未恢复,请阅读下文详细排查。

故障原因及处理方法

无监控数据原因 处理方法
未安装监控 Agent 或未启动 Agent 参考 步骤一 排查并处理故障
无法解析数据上报域名 参考 步骤二 排查并处理故障
Agent获取uuid错误 参考 步骤三 排查并处理故障
云服务器重启或关机 参考 步骤四 排查并处理故障
云服务器高负载 参考 步骤五 排查并处理故障

处理步骤

步骤一:检查是否安装监控组件 Agent 或是否启动 Agent

Linux 和 Windows 未安装监控 Agent 或未启动 Agent 的排查步骤不一致,详情请参考下文。

1. 执行以下命令,查看 Agent 是否安装成功:

crontab -l |grep stargate

若如图所示则表示已安装。

若未安装成功,请参考 安装监控组件 安装 Agent。

2. 检查 Agent 是否运行正常
执行以下命令,查看agent是否正常运行:

ps ax | grep sgagent
ps ax | grep barad_agent

若如图所示则运行正常(注意barad_agent 进程数为3个):


若无显示或进程数量不符,则说明Agent异常,请以 root 账号执行以下命令启动 Agent ,提示stargate agent run succbarad_agent run succ,表示重启成功。

cd /usr/local/qcloud/stargate/admin
./restart.sh
cd /usr/local/qcloud/monitor/barad/admin
./stop.sh
./trystart.sh

说明:

Agent启动后,等待3分钟后云服务器控制台确认是否已有监控数据。

步骤二:检查上报域名

监控 Agent 正常工作依赖下面 4 个域名正常解析:

  • update2.agent.tencentyun.com
  • receiver.barad.tencentyun.com
  • custom.message.tencentyun.com
  • metadata.tencentyun.com

Linux 和 Windows 检查上报域名和修复域名步骤不一致,详情请参考下文。

1. 检查上报域名是否可以正常解析
执行下列命令,确认4个域名是否都能正常解析:

ping -c 1 update2.agent.tencentyun.com
ping -c 1 receiver.barad.tencentyun.com
ping -c 1 custom.message.tencentyun.com
ping -c 1 metadata.tencentyun.com 

正常情况下,在云服务器上可以正常解析以上4个域名,若上面的命令提示 unknown host 则表示域名无法解析,参考下列的方式修复。

2. 修复域名解析
腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。

  1. 如果使用自建 DNS 服务或第三方 DNS 服务,建议在/etc/resolv.conf中追加腾讯云提供的内网DNS,具体请参见 云服务器内网 DNS列表
  2. 如果使用自建 DNS,也可以把以上4个域名加到自建 DNS 中,域名和对应解析 IP 如下:
    域名IP
    update2.agent.tencentyun.com169.254.0.15
    receiver.barad.tencentyun.com169.254.0.4
    custom.message.tencentyun.com169.254.0.5
    metadata.tencentyun.com 169.254.10.10
3. 如果以上两个方式不可行,可以在服务器的`/etc/hosts`文件中增加如下配置:

169.254.0.15 update2.agent.tencentyun.com
169.254.0.4 receiver.barad.tencentyun.com
169.254.0.5 custom.message.tencentyun.com
169.254.10.10 metadata.tencentyun.com 

说明:

修复后,再次检查域名解析是否正常。域名解析正常后,等待3分钟后到云服务器控制台确认是否已有监控数据。

步骤三:检查 uuid 是否正确

目前只有 Linux 会出现 uuid 配置不正确问题,详情请参考下文。

  1. 进入 云服务器控制台 ,进入实例详情查看 uuid 。
  2. 登录云服务器,执行以下命令查看 uuid 。
    cat /sys/class/dmi/id/product_serial
    若服务器上 uuid 和云服务器控制台展示的 uuid 不一致,以 root 账号执行下列命令修复 uuid 并重启 Agent。
    echo `cat /etc/uuid |awk -F '= ' '{print $NF}'` > /etc/uuid_to_serial; mount --bind /etc/uuid_to_serial /sys/class/dmi/id/product_serial
    cd /usr/local/qcloud/stargate/admin
    ./restart.sh
    cd /usr/local/qcloud/monitor/barad/admin
    ./stop.sh
    ./trystart.sh
说明:

修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。

步骤四:检查云服务器操作日志

云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。
用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。

问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。

步骤五:检查云服务器负载

云服务器 CPU 高负载,内存使用占满,带宽占用过高都会导致监控组件上报数据异常。

问题排查方式:

目录