前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >蓝鲸监控社区版5.0:终结满屏告警

蓝鲸监控社区版5.0:终结满屏告警

作者头像
嘉为蓝鲸
发布2019-04-24 16:29:29
2.6K0
发布2019-04-24 16:29:29
举报

社区版5.0已经发布,小编和你一起看看这个迭代是如何解决用户关心的告警风暴、ZooKeeper/Kafka这类二进制名相同的进程监控、配置全局策略后,想单独给1台机器设置策略、Windows下如何做进程端口监控问题。

1

告警恢复检测机制:整个世界都清净了

“告警未恢复,持续告警” 、“稍微抖一下就告警,无法抑制”,导致根本没法用下去...

在本次迭代中,我们增加了告警恢复检测机制(下一个迭代会增加一个告警状态:已恢复),告警如果未恢复,将会被抑制,不再产生告警。

此外,针对检测算法,小编有如下建议:

  • 抖动类指标:如CPU总使用率,N可选择3,来消除抖动
  • 非抖动类指标:如磁盘使用率,N可选择1

告警恢复的判断: 连续M个周期均未触发检测算法

2

ZooKeeper/Kafka这类二进制名相同的进程监控

ZooKeeper、Kafka二进制名都是java,这该如何监控?

这次迭代增加了一个识别进程的维度:启动参数

操作如下,在CMDB中添加进程时填写启动参数的匹配规则

通过ps auxf去过滤进程的启动参数

此外,针对进程端口监控已经不需要用户手动下发采集任务了,因为注册进程会自动把进程信息下发至Agent上的/etc/gse/host/hostid目录,监控的进程端口采集器会捕获文件变化,做告警检测,预计延时2分钟。

3

设置了全局策略,但想单独给其中1台主机设置该怎么办?

场景:全局有一个策略,但某台主机很敏感,想把阈值调低一些。

告警策略关联特性:监控范围的粒度(精度)越细,告警策略的优先级越高,优先生效,其余抑制。

案例:全局 CPU使用率的阈值是>=95%,windows-agent模块的阈值是>=85%,某一台敏感主机(属于windows-agent模块)的阈值是>=75%。

当CPU使用率为75%时,则只有>=75%这条策略生效;当CPU使用率为85%时,则只有>=85%这条策略生效。

4

进程端口监控支持Windows了

终于支持Windows下进程端口监控了了了了,不放图了。

以上为社区版5.0中监控的部分新特性,播报完毕。

欢迎大家升级至社区版5.0(https://bk.tencent.com/download/),监控SaaS部分请访问Smart市场(https://bk.tencent.com/s-mart/application/173/detail),更多版本日志请访问版本日志。(https://docs.bk.tencent.com/bkce_change_log/v5003.html#VERSION_LOG)

蓝鲸智云平台试用Tips

蓝鲸社区版

如果您想先简单了解蓝鲸研发运营一体化平台,或者企业规模较小但想用更为先进的自动化运维管理方式进行IT运维管理,推荐您先试用蓝鲸社区版。

蓝鲸社区版已经开源,您可以登录蓝鲸智云官网免费下载。网址:

http://bk.tencent.com/download

蓝鲸企业版

当然,蓝鲸企业版拥有更为丰富的功能,更适合企业级客户使用。如您有需要试用或者测试,联系嘉为吧!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 嘉为科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档