社区版5.0已经发布,小编和你一起看看这个迭代是如何解决用户关心的告警风暴、ZooKeeper/Kafka这类二进制名相同的进程监控、配置全局策略后,想单独给1台机器设置策略、Windows下如何做进程端口监控问题。
1
告警恢复检测机制:整个世界都清净了
“告警未恢复,持续告警” 、“稍微抖一下就告警,无法抑制”,导致根本没法用下去...
在本次迭代中,我们增加了告警恢复检测机制(下一个迭代会增加一个告警状态:已恢复),告警如果未恢复,将会被抑制,不再产生告警。
此外,针对检测算法,小编有如下建议:
告警恢复的判断: 连续M个周期均未触发检测算法
2
ZooKeeper/Kafka这类二进制名相同的进程监控
ZooKeeper、Kafka二进制名都是java,这该如何监控?
这次迭代增加了一个识别进程的维度:启动参数
操作如下,在CMDB中添加进程时填写启动参数的匹配规则
通过
ps auxf
去过滤进程的启动参数
此外,针对进程端口监控已经不需要用户手动下发采集任务了,因为注册进程会自动把进程信息下发至Agent上的/etc/gse/host/hostid目录,监控的进程端口采集器会捕获文件变化,做告警检测,预计延时2分钟。
3
设置了全局策略,但想单独给其中1台主机设置该怎么办?
场景:全局有一个策略,但某台主机很敏感,想把阈值调低一些。
告警策略关联特性:监控范围的粒度(精度)越细,告警策略的优先级越高,优先生效,其余抑制。
案例:全局 CPU使用率的阈值是>=95%,windows-agent模块的阈值是>=85%,某一台敏感主机(属于windows-agent模块)的阈值是>=75%。
当CPU使用率为75%时,则只有>=75%这条策略生效;当CPU使用率为85%时,则只有>=85%这条策略生效。
4
进程端口监控支持Windows了
终于支持Windows下进程端口监控了了了了,不放图了。
以上为社区版5.0中监控的部分新特性,播报完毕。
欢迎大家升级至社区版5.0(https://bk.tencent.com/download/),监控SaaS部分请访问Smart市场(https://bk.tencent.com/s-mart/application/173/detail),更多版本日志请访问版本日志。(https://docs.bk.tencent.com/bkce_change_log/v5003.html#VERSION_LOG)
蓝鲸智云平台试用Tips
蓝鲸社区版
如果您想先简单了解蓝鲸研发运营一体化平台,或者企业规模较小但想用更为先进的自动化运维管理方式进行IT运维管理,推荐您先试用蓝鲸社区版。
蓝鲸社区版已经开源,您可以登录蓝鲸智云官网免费下载。网址:
http://bk.tencent.com/download
蓝鲸企业版
当然,蓝鲸企业版拥有更为丰富的功能,更适合企业级客户使用。如您有需要试用或者测试,联系嘉为吧!