近期发现业务频繁出现cdn的告警问题,诉求排查下这个域名的告警的由来原因。
m.xxx.cn,5xx告警;
cdn,xxxx.cn回源失败率告警,需确认原因
cdn, xxxx.cn,回源失败,需核实原因
告警内容:
CDN-CDN域名国内|回源失败率 >= 1% ||
(5xx状态码占比 > 5% && 状态码(5xx) > 200 次) ||
(404状态码占比 > 0% && 状态码(404) > 100 次)
1、 分析共性,5xx的集中性问题,多个域名因历史特殊配置需求,针对单ip进行限频报错514。结果均为单ip的限频特殊配置导致 514;
2、 部分域名集中有在 4xx(404)的告警集中性;结果均为:分析 404 的共性url,客户端ip等集中性特点。
针对 5xx告警:
● 业务可以调整下这个监控告警的维度。 云监控的配置里,是有单独列出514告警和 不含514告警的。
根据历史分析经验判断,514 均由单ip限频报错导致,后续如果有514告警的话,正常可以暂时先忽略了,不用一直排查5xx的问题。
● 如果真的有5xx告警(不含514)的场景,可以继续分析排查。
针对要排查的域名,建立日志主体,进行检索分析共性
针对 4xx/5xx告警
● 建议针对业务维度调整 404 的阈值,且可以通过控制台实时日志分析来进行自定位,自主排查相对方便高效。
操作:
cdn控制台日志服务的,实时日志检索功能;
例如:
(1)某域名的 4xx告警
● 过滤筛选条件 http_code满足 4xx范围
● 展示对应的指标(按照clientip,url维度进行展示)
● 此时已经基本可以判断出常态化的 4xx集中性来源。
● 若想要分析其他维度,可以继续新增不同维度,进行聚集性分析;
(2)某域名的 5xx告警 也是一致性过滤
如上述
(3)某域名的回源失败告警;
回源失败对应http_code=0,过滤条件修改为
参考:
● 下载对应的离线日志:登录 - 腾讯云
● 脚本分析对应的聚集性:url,状态码,客户端等:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。