监控组件用途
监控组件需要提前安装到物理服务器中,安装后可提供 性能监控、硬件故障监控、异常现象监控。
缺失影响
- 无法获取监控数据
无法定制告警消息,影响用户对设备情况的及时掌握。 - 无法主动发现硬件故障
无法由平台发现故障,需由用户识别故障,并报障处理。影响业务可用性时长。
监控信息配置
在 云监控控制台,可针对黑石物理机监控指标自定义告警策略,关联(作用到)告警对象(黑石物理机),管理告警接收组。
支持自定义告警阈值的指标包括(性能监控): CPU 使用率,CPU 平均负载,MEM 内存使用量,应用内存使用量,虚拟内存使用量,内存使用率,磁盘 IO 读流量,磁盘 IO 写流量,磁盘 IO 等待时间,磁盘 IO 的 CPU 使用率,磁盘 IO 的服务时间,磁盘空间使用率,网卡出带宽,网卡入带宽,网卡出包量,网卡入包量,外网出带宽,外网入带宽,外网出包量,外网入包量,外网出流量。
现象发生后触发的告警包括(异常现象监控):磁盘只读告警(某个逻辑盘不可写入,可能的原因是磁盘满或者文件系统故障等)。
较明确原因的硬件故障告警包括(硬件故障监控): 硬盘故障(有冗余),RAID 卡电池故障,RAID 卡缓存故障,硬盘故障(无冗余),硬盘即将故障(有冗余),硬盘故障(有冗余,槽位未知),电源故障(有冗余),风扇故障,硬盘故障(无冗余,在线换盘),SSD 硬盘故障(无冗余),网卡故障,内存故障,SSD 硬盘寿命耗尽(关机换盘)【表示需要关机换盘,否则存在极大风险】,SSD 硬盘温度过高(关机换盘),SSD硬盘坏块率过高(关机换盘),HBA 卡故障 ,操作系统硬盘故障(无冗余),主板故障 ,CPU 故障 ,电源故障(无冗余),硬盘即将故障(无冗余)。
说明:对于硬件故障告警,即使用户未在云监控控制台进行告警配置,腾讯云黑石平台发现后,会有售后支持主动通知用户(通常是售后支持群)的流程保障硬件故障能及时跟进和处理;其他两类告警需要用户自行在云监控控制台进行相应的配置。
监控组件安装(修复)指引
Linux 操作系统
- 下载:
wget http://mirrors.tencentyun.com/install/monitor_bm/AgentInstall.tgz
- 解压:
tar zxvf AgentInstall.tgz
- 安装:
cd AgentInstall;./setupagent.sh
- 验证:
执行ps -ef |grep agenttools
命令,可以看到如下5个相关进程。[root@centos ~]# ps -ef |grep agenttools root 3900 1 0 Jul10 ? 00:00:03 /usr/local/agenttools/agent/agent -c /usr/local/agenttools/agent/client.conf root 3907 1 0 Jul10 ? 00:00:00 /usr/local/agenttools/agent/agentPlugInD root 3915 1 0 Jul10 ? 00:01:05 /usr/local/agenttools/agent/base -d5 -c1 -m4 -s /usr/local/agenttools/agent/base.conf root 3921 1 0 Jul10 ? 00:00:00 /usr/local/agenttools/agent/tcvmstat root 3935 1 0 Jul10 ? 00:00:06 /usr/local/agenttools/agent/sysddd root 41565 41419 0 15:50 pts/0 00:00:00 grep agenttools
Windows 操作系统
- 下载:
进入到黑石物理机 OS 内,并通过浏览器下载:http://mirrors.tencentyun.com/install/monitor_bm/AgentInstall_win64.zip
- 解压:
将安装包解压成文件夹 win-agent,放到 C: 盘根目录下,目录结构为:c:\win-agent\ |--adssensor.dll |--agentplugin.dll |--agentRepNum.exe |--agentRepStr.exe ……
- 安装
运行C:\win-agent\uninstall.bat
,运行C:\win-agent\setup.bat
- 验证:
- 打开【我的电脑】,在地址栏输入 cmd,按 Enter。
- 输入
netstat -ano
命令,按 Enter。即可看到连接远端9922端口。
- 打开【我的电脑】,在地址栏输入 cmd,按 Enter。