前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >收到告警后如何快速定位问题

收到告警后如何快速定位问题

作者头像
十毛
发布2021-11-24 13:51:01
1.5K0
发布2021-11-24 13:51:01
举报
文章被收录于专栏:用户1337634的专栏

收到告警消息后,如何快速定位问题

  • 关联版本发布:如果是新版本发布后新产生的告警,就首先考虑告警与发布的内容之间的关系,如果不能快速解决,就需要回滚版本
  • 收集多组告警:收集一起出现的所有错误错误消息或错误日志,分析什么原因可能导致一组错误。 比如:
代码语言:javascript
复制
Unable to send PING command over channel: [id: 0xaabc5c3c, L:/9.165.34.233:57438 - R:10.62.15.30/10.62.15.30:6380]
Exception: Command execution timeout for command: (PING), params: [], Redis client: [addr=redis://10.62.15.30:6380]
代码语言:javascript
复制
Redis server response timeout (3000 ms) occured after 3 retry attempts. Increase nettyThreads and/or timeout settings. Try to define pingConnectionInterval setting. Command: (ZRANGEBYSCORE)

上面两个错误是突然出现的,如果只看第一个错误,就可能以为是redisson的bug(https://github.com/redisson/redisson/issues/3273)。实际上是因为命令ZRANGEBYSCORE在大key上执行,耗时太长,引发其他请求也超时

  • 尽早定位:收到告警消息,需要尽早定位问题,防止错误扩散

有一次发布后,收到一个"订单不存在"的告警消息,因为看起来问题不大,也没有影响用户下单,就没有第一时间去定位,等第二次出现"结算单不存在"时,才觉得有新的问题,原来是自定义多数据源时,漏了自定义事务管理器,导致数据不一致

  • 快速跳转:告警消息中需要携带关键信息,特别是调用链的traceId,并且可以点击跳转
  • 减少无用告警:防止错误消息被无效消息淹没
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/7/28 下,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档