文档中心 云监控 常见问题 云服务器无监控数据

云服务器无监控数据

最近更新时间:2018-07-02 17:43:59

导致云服务器无监控数据的可能原因会有以下几个:未安装监控 agent、用户通过控制台或者命令行操作云服务器、云服务器高负载、云服务器内部 DNS 配置错误等,本文将教您如何排查并解决相应故障。

未安装监控 agent

无监控数据可能由于云服务器未安装 监控组件 Agent 导致,具体原因可通过以下步骤排查:

  • 判断是否安装 barad_agent;

未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参考 安装监控组件

用户通过控制台或者命令行操作云服务器

云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。
用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。

问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。

云服务器高负载

云服务器 CPU 高负载,内存使用占满,带宽使用占满都会导致监控组件上报数据异常。
问题排查方式: 可以登录云服务器或者查看监控视图是否有存在 CPU 和内存,带宽使用达到 100% 的情况,如果达到 100%,可以根据实际情况来扩容服务。

云服务器内部 DNS 配置错误

云服务器内网 DNS 配置错误会导致监控组件无法上报数据。
问题排查方式: 腾讯云的内网 DNS 配置可以参考 内网DNS访问和设置

其他问题排查指引

Linux系统—使用监控组件管理工具进行问题排查

  1. 下载监控组件管理工具

    wget http://update2.agent.tencentyun.com/update/monitor_agent_admin && chmod +x monitor_agent_admin
    
  2. 安装监控组件

    ./monitor_agent_admin install
    
  3. 执行以下命令,检查并修复。若问题仍未解决,请通过工单将工具输出的文件monitor_agent_admin-*.zip提交给我们,将有专人联系您一同处理。

    sh ./monitor_agent_admin check
    

监控组件管理工具其他操作

  1. 下载监控组件管理工具

    wget http://update2.agent.tencentyun.com/update/monitor_agent_admin && chmod +x monitor_agent_admin
    
  2. 安装监控组件

    ./monitor_agent_admin install
    
  3. 卸载监控组件

    ./monitor_agent_admin uninstall
    
  4. 重新安装监控组件

    ./monitor_agent_admin reinstall
    
  5. 检查并修复

    ./monitor_agent_admin check
    
  6. 重启

    ./monitor_agent_admin restart
    

Windows系统—常见问题排查流程

  1. 若已安装 agent,判断 barad_agent 的日志是否每分钟实时滚动且成功上报

    windows系统日志路径:C:\Program Files\QCloud\Monitor\Barad\logs\info.log
    且每条日志都有"nws send succ"

  2. 若日志无滚动,可能为agent调度问题(一般只出现在linux系统,可能是改过系统时间)
    可尝试重启barad_agent,同时确认日志/usr/local/qcloud/monitor/barad/log/executor.log有无错误。

  3. 若上报失败(nws send fail),需根据日志判断具体的问题(如超时、无法连接到服务器、无法解析域名等)
    上报地址可以在etc目录的plugin.ini文件中的nws_url看到。

  4. 若上报未出现 nws send fail

    1)检查uuid是否被修改过

    uuid文件路径:

    linux:/etc/uuid
    windows:c:\windows\system32\drivers\etc\uuid
    c:\windows\system32\drivers\etc\目录下uuid格式命名的最新文件

    2)若uuid文件未变动,检测子机的时间戳

    linux可使用命令 /usr/sbin/ntpdate ntpupdate.tencentyun.com 查看时间调整是否在50S以内,若时间相关较大,重启barad_agent后可恢复。

  5. 若通过以上步骤仍未解决问题,请提交工单联系工作人员为您处理。