云产品指标

文档中心 > 云监控 > 故障处理 > 云服务器无监控数据

云服务器无监控数据

最近更新时间:2020-07-03 17:30:50

简介

云服务器指标数据采集依赖于监控组件。 若您没法正常获取监控指标数据,请参考本文排查故障。

故障原因

导致云服务器无监控数据的可能原因会有以下几个:

  • 未安装监控 agent 或未启动 agent
  • 用户通过控制台或者命令行操作云服务器
  • 云服务器高负载
  • 云服务器内部 DNS 配置错误

排查思路

处理步骤

检查是否安装监控组件 agent 或是否启动 agent

无监控数据可能由于云服务器未安装 监控组件 Agent 导致。

Linux 未安装监控 agent 或未启动 agent

  1. 查看是否安装 agent
    执行以下命令,查看agent是否安装成功:
    crontab -l |grep stargate
    若如图所示则安装成功
  2. agent 安装成功后,启动 agent
    执行以下命令,启动agent。
    ps ax |grep sgagent
    ps ax |grep barad_agent

Windows 未安装监控 agent 或未启动 agent

运行服务(services.msc),查看 agent 是否安装成功和是否启动。若 BaradAgent 或 stargate 未显示 “Running” 或“正在运行”,则说明服务未启动。可单击对应的服务名称,启动服务。:

说明:

  • 若 agent 已启动,仍无监控数据,可执行其它排查步骤进行其它原因排查。
  • 未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参见 安装云服务器监控组件 文档。

检查监控组件是否离线

云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。
用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。

问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。

检查云服务器是否高负载

云服务器 CPU 高负载,内存使用占满,带宽占用过高都会导致监控组件上报数据异常。

问题排查方式:

检查云服务器内部 DNS 配置是否错误

云服务器内网 DNS 地址配置错误,会导致监控组件无法上报数据。

问题排查方式: 腾讯云的内网 DNS 地址可以参考内网 DNS 服务器地址

其他问题排查指引

Linux 系统—使用监控组件管理工具进行问题排查

  1. 下载监控组件管理工具,并赋予可执行权限。
    wget http://update2.agent.tencentyun.com/update/monitor_agent_admin && chmod +x monitor_agent_admin
  2. 安装监控组件管理工具。若提示 OK,则说明安装成功。
    ./monitor_agent_admin install
  3. 执行以下命令,脚本将开始检查并修复(检查系统、网络等;提示 OK 则说明检查正常或修复成功)。若问题仍未解决,请 提交工单 将工具输出的文件 monitor_agent_admin-*.zip 提交给我们(了解 Linux 如何下载文件,请参见云服务器 下载文件),将有专人联系您一同处理。
    sh ./monitor_agent_admin check

其它操作

监控组件管理工具其他操作如下,请先进入到您下载存放 monitor_agent_admin 的目录。

  • 卸载监控组件管理工具。若提示 OK,则说明卸载成功。
    ./monitor_agent_admin uninstall
  • 重新安装监控组件管理工具。若提示 OK,则说明重装成功。
    ./monitor_agent_admin reinstall
  • 重启监控组件管理工具。若提示 OK,则说明重启成功。
    ./monitor_agent_admin restart

Linux 系统—具体原因排查流程

  1. 判断是否安装 监控组件。
    查看监控组件是否安装成功,执行如下命令:
    crontab -l |grep stargate
    i. 若执行结果如下图所示,说明监控组件安装成功。

    ii. 若无提示则未安装成功,未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参考 Linux 安装指引
  2. 若已安装 agent,判断 barad_agent 的日志是否每分钟实时滚动且成功上报。
    Linux 系统日志路径:/usr/local/qcloud/monitor/barad/log/dispatcher.log
    且每条日志都有"nws send succ"。
  3. 若日志无滚动,可能为 agent 调度问题(一般只出现在 Linux 系统,可能是改过系统时间)。
    可尝试重启 barad_agent,同时确认日志/usr/local/qcloud/monitor/barad/log/executor.log有无错误。
  4. 若上报失败(nws send fail),需根据日志判断具体的问题(例如超时、无法连接到服务器、无法解析域名等)。
  5. 检查 uuid 是否被修改过
    Linux 系统 uuid 文件路径:/etc/uuid
  6. 若 uuid 文件未变动,检测子机的时间戳。
    在 Linux 系统中执行命令 /usr/sbin/ntpdate ntpupdate.tencentyun.com 查看时间调整是否在50s以内。

    若时间相差较大,执行如下命令,重启监控组件后可恢复。
    ./linux_stargate_installer restart
  7. 若执行以上流程仍未解决问题,可使用 check_agent_profile 脚本。
    在云服务器内执行如下命令:
    wget http://update2.agent.tencentyun.com/check_barad_agent && sh check_barad_agent
    将输出结果 提交工单 进行上报,我们将尽快为您定位解决问题。

Windows 系统——具体原因排查流程

  1. 运行服务(services.msc),查看是否安装监控组件,已安装如下图所示。

    i .若已安装监控组件,判断 barad_agent 的日志是否每分钟实时滚动且成功上报
    Windows 系统日志路径:C:\Program Files\QCloud\Monitor\Barad\logs\info.log
    且每条日志都有 "nws send succ"。
    ii. 未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参考 Windows 安装指引
  2. 若日志无滚动,可能为 agent 调度问题(一般只出现在 Linux 系统,可能是改过系统时间)。
    可尝试重启监控组件,同时确认日志/usr/local/qcloud/monitor/barad/log/executor.log有无错误。
  3. 若上报失败(nws send fail),需根据日志判断具体的问题(例如超时、无法连接到服务器、无法解析域名等)
    上报地址可以在 etc 目录的 plugin.ini 文件中的 nws_url 看到。
  4. 若上报未出现 nws send fail。
  5. 检查 uuid 是否被修改过
    uuid 文件路径:
    Windows:c:\windows\system32\drivers\etc\uuid
    c:\windows\system32\drivers\etc\目录下 uuid 格式命名的最新文件
  6. 若 uuid 文件未变动,检测子机的时间戳。若时间相差较大,重启监控组件后可恢复。
  7. 若通过以上步骤仍未解决问题,请 提交工单 联系工作人员为您处理。
目录