有奖捉虫:云通信与企业服务文档专题,速来> HOT

简介

云服务器指标数据采集依赖于监控 Agent。 若您没法正常获取监控指标数据,请参见本文排查故障。 建议您首先根据 安装监控组件 重新安装监控 Agent,并等待3分钟查看监控数据是否恢复。若安装遇到问题或监控数据未恢复,请阅读下文详细排查。

故障原因及处理方法

无监控数据原因
处理方法
未安装监控 Agent 或未启动 Agent
参见 步骤一 排查并处理故障
无法解析数据上报域名
参见 步骤二 排查并处理故障
Agent 获取 uuid 错误
参见 步骤三 排查并处理故障
云服务器重启或关机
参见 步骤四 排查并处理故障
云服务器高负载
参见 步骤五 排查并处理故障

处理步骤

步骤一:检查是否安装监控组件 Agent 或是否启动 Agent

Linux 和 Windows 未安装监控 Agent 或未启动 Agent 的排查步骤不一致,详情请参见下文。
Linux
Windows
1. 执行以下命令,查看 Agent 是否安装成功:
crontab -l |grep stargate
若如图所示则表示已安装。

若未安装成功,请参见 安装监控组件 安装 Agent。
2. 检查 Agent 是否运行正常 执行以下命令,查看 Agent 是否正常运行:
ps ax | grep sgagent
ps ax | grep barad_agent
若如图所示则运行正常(注意barad_agent 进程数为3个):

若无显示或进程数量不符,则说明 Agent 异常,请以 root 账号执行以下命令启动 Agent ,提示stargate agent run succbarad_agent run succ,表示重启成功。
cd /usr/local/qcloud/stargate/admin
./restart.sh
cd /usr/local/qcloud/monitor/barad/admin
./stop.sh
./trystart.sh
说明
Agent 启动后,等待3分钟后云服务器控制台确认是否已有监控数据。

运行服务(services.msc),查看 Agent 是否安装成功和是否启动。若 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务未显示 “Running” 或“正在运行”,则说明服务未启动。可单击对应的服务名称,启动服务。



说明
若 Agent 已启动,仍无监控数据,可继续查看下面排查思路。
未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参见 安装云服务器监控组件 文档。

步骤二:检查上报域名

监控 Agent 正常工作依赖下面 4 个域名正常解析:
update2.agent.tencentyun.com
receiver.barad.tencentyun.com
custom.message.tencentyun.com
metadata.tencentyun.com
Linux 和 Windows 检查上报域名和修复域名步骤不一致,详情请参见下文。
Linux
Windows
1. 检查上报域名是否可以正常解析 执行下列命令,确认4个域名是否都能正常解析:
ping -c 1 update2.agent.tencentyun.com
ping -c 1 receiver.barad.tencentyun.com
ping -c 1 custom.message.tencentyun.com
ping -c 1 metadata.tencentyun.com
正常情况下,在云服务器上可以正常解析以上4个域名,若上面的命令提示 unknown host 则表示域名无法解析,参见下列的方式修复。
2. 修复域名解析
腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参见以下方式修复上述 4 个域名的解析问题。
2.1 如果使用自建 DNS 服务或第三方 DNS 服务,建议在/etc/resolv.conf中追加腾讯云提供的内网DNS,具体请参见 云服务器内网 DNS 列表
2.2 如果使用自建 DNS,也可以把以上4个域名加到自建 DNS 中,域名和对应解析 IP 如下:
域名
IP
update2.agent.tencentyun.com
169.254.0.15
receiver.barad.tencentyun.com
169.254.0.4
custom.message.tencentyun.com
169.254.0.5
metadata.tencentyun.com
169.254.0.23 或 169.254.10.10
3. 如果以上两个方式不可行,可以在服务器的/etc/hosts文件中增加如下配置:
169.254.0.15 update2.agent.tencentyun.com
169.254.0.4 receiver.barad.tencentyun.com
169.254.0.5 custom.message.tencentyun.com
169.254.0.23 metadata.tencentyun.com
说明
修复后,再次检查域名解析是否正常。域名解析正常后,等待3分钟后到云服务器控制台确认是否已有监控数据。
1. 检查上报域名是否可以正常解析 执行下列命令,确认4个域名是否都能正常解析:
ping -n 1 update2.agent.tencentyun.com
ping -n 1 receiver.barad.tencentyun.com
ping -n 1 custom.message.tencentyun.com
ping -n 1 metadata.tencentyun.com
正常情况下,在云服务器上可以正常解析以上4个域名,若提示“找不到主机”则表示域名无法解析,参见下列的方式修复。
2. 修复域名解析
腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。
1. 登录 Windows 云服务器。
2. 在操作系统界面,打开控制面板 > 网络和共享中心 > 更改适配器设备
3. 右键单击以太网,选择属性,打开 “以太网 属性” 窗口。
4. 在 “以太网 属性” 窗口,双击打开 **Internet 协议版本 4 (TCP/IPv4)**。如下图所示:


5. 选择使用下面的 DNS 服务器地址,根据 内网 DNS 列表中对应的不同地域,修改 DNS IP。修改完后单击确定即可。


6. 如果上述方式不可行,您进入 C:\\Windows\\System32\\drivers\\etc\\hosts,在 hosts 配置文件增加如下配置:
169.254.0.15 update2.agent.tencentyun.com
169.254.0.4 receiver.barad.tencentyun.com
169.254.0.5 custom.message.tencentyun.com
169.254.0.23 metadata.tencentyun.com
7. 运行 services.msc ,按鼠标右键单击重启启动按钮,重启 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务即可。


说明
修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。 若重启后仍无监控数据,请参见 安装云服务器监控组件 卸载并重装 Agent。


步骤三:检查 uuid 是否正确

注意:
该方法只适用于 CVM 服务器,轻量应用服务器控制台没有 uuid 显示。
目前只有 Linux 会出现 uuid 配置不正确问题,详情请参见下文。
1. 进入 云服务器控制台 ,进入实例详情查看 uuid。


2. 登录云服务器,执行以下命令查看 uuid 。
cat /sys/class/dmi/id/product_serial
```若服务器上 uuid 和云服务器控制台展示的 uuid 不一致,以 root 账号执行下列命令修复 uuid 并重启 Agent。
```plaintext
echo `cat /etc/uuid |awk -F '= ' '{print $NF}'` > /etc/uuid_to_serial; mount --bind /etc/uuid_to_serial /sys/class/dmi/id/product_serial

cd /usr/local/qcloud/stargate/admin
./restart.sh
cd /usr/local/qcloud/monitor/barad/admin
./stop.sh
./trystart.sh
说明
修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。

步骤四:检查云服务器操作日志

云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。 用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。
问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。




步骤五:检查云服务器负载

云服务器 CPU 高负载,内存使用占满,带宽占用过高都会导致监控组件上报数据异常。
问题排查方式:
CPU 高负载:详细排查步骤请查看 云服务器 CPU 或内存占用过高
内存占用过高:可以登录云服务器或者查看监控图表是否有存在内存 使用达到100%的情况 ,若达到100%,可以根据实际情况来扩容服务。
带宽占用过高:详细排查步骤请查看 云服务器带宽使用率过高