首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

告别重复告警打扰--基于堆栈相似度的全新QAPM告警方案

导语 为了能够及时的发现问题并及时解决,QAPM提供了一套卡顿告警机制。正如同常规的阈值触发的告警机制一样,QAPM早期的告警也会使测试开发人员陷入告警风暴的影响,影响工作效率。在这种背景下,对告警进行聚类和去重的需求逐渐显现出来。Rebucket作为一个成熟的堆栈相似度计算的算法,曾被微软用于解决bug上报的聚类问题。相比于普通的前缀匹配的检测算法,ReBucket能够提供12%的准确率提升。我们期望利用Rebucket算法,找到那些重复出现的告警,从而提升用户体验,突出告警重点。本文将重点介绍rebucket算法原理以及如何利用该算法对我们的告警系统进行优化与改进,最后将讨论堆栈相似度算法在QAPM中潜在的其他应用场景。

07

zabbix监控常见系统报错

CPU触发器: 1)Processor load is too high on {HOST.NAME} {HOST.NAME}上处理器负载太高 触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5 告警等级:警告 2)Disk I/O is overloaded on {HOST.NAME} 磁盘I/O在{HOST.NAME}上重载 触发器表达式:{Zabbix server:system.cpu.util[,iowait].avg(1h)}>30 告警等级:警告 3){HOST.NAME} [CPU Idle]-[< 10%] CPU空闲小于百分之10 触发器表达式:{Zabbix server:system.cpu.util[,idle].count(#5,10,"lt")}=5 告警等级:一般严重 General触发器: 1)Hostname was changed on {HOST.NAME} 主机名被更改 触发器表达式:{Zabbix server:system.hostname.diff(0)}>0 告警等级:信息 2)Host information was changed on {HOST.NAME} 主机信息给更改 触发器表达式:{Zabbix server:system.uname.diff(0)}>0 告警等级:信息 3)HOST.NAME} has just been restarted 重新启动主机 触发器表达式:{Zabbix server:system.uptime.change(0)}<0 告警等级:信息 Keepalived触发器 1){HOST.NAME}keepalived进程宕机,请运维人员确认 触发器表达式:({TRIGGER.VALUE}=0 and {Zabbix server:proc.num[keepalived,,,keepalived].change(0)}<0 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}=0) or ({TRIGGER.VALUE}=1 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}<>3) 告警等级:严重 Memory触发器 1)Lack of free swap space on {HOST.NAME} 主机上缺少自由交换空间 触发器表达式:{Zabbix server:system.swap.size[,pfree].last(0)}<10 告警等级:警告 2)Lack of available memory on server {HOST.NAME} 主机服务器上缺少可用的内存 触发器表达式:{Zabbix server:vm.memory.size[available].last(0)}<20M 告警等级:一般严重 Security触发器 1)/etc/passwd has been changed on {HOST.NAME} 主机密码文件被更改 触发器表达式:{Zabbix server:vfs.file.cksum[/etc/passwd].diff(0)}>0 告警等级:警告 Processes触发器 1)Too many processes running on {HOST.NAME} 在主机上运行的进程太多 触发器表达式:{Zabbix server:proc.num[,,run].avg(5m)}>30 告警等级:警告 2)Too many processes on {HOST.NAME} 在主机上进程太多 触发器表达式:{Zabbix server:proc.num[].avg(5m)}>1000 告警等级:警告 Performace触发器 1)Processor load is too high on {HOST.NAME} 在主机上处理器负载过高(1分钟) 触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5 告警等级:警告 OS触发器 1)Configured max number of processes is too low on {HOST.NAME} 主机上配置的最大进程数太低 触发器表达式:{Zabbix server:kernel.maxproc.last(0)}<256 告警等级:信息 2)Configured max number of opened files is too low on {HOST.NAME}

02

【安全告警数据分析之道:一】数据透视篇

日前,在企业安全运营当中,SIEM的热潮已经逐渐淡去,很多企业已经逐渐成立了安全运营中心(SOC),收集到了海量安全数据。但是如何利用这些数据,如何进行分析等问题并没有很好地解决。数据往往只是做简单存储,数据价值未得到体现。其实在网络安全领域最重要的还是“数据”,做攻击离不开各种资产数据、漏洞数据,做防御离不开资产数据、设备告警数据,对各种攻击活动的分析更是离不开DNS、样本、用户行为等数据,《安全告警数据分析之道》为系列文章,旨在对企业网络侧安全告警数据进行深入分析,挖掘数据的潜在价值,助力企业日常安全运营。

07
领券