前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >根据用户id获取对应的组织管理范围 - qps限频断层

根据用户id获取对应的组织管理范围 - qps限频断层

原创
作者头像
徐攀棒
发布2021-11-28 15:15:15
1K0
发布2021-11-28 15:15:15
举报

【问题背景】

压测执行:并发数600,脚本含有依赖包,执行持续时间300秒

压测结果:qps曲线出现严重下坠以及断层,

【排障过程】

10:50发了该问题及时升级,同时拉起排障会议解决

11:00拉相关人员上会:架构、运维、研发、涉及ISV团队协助进行性能排障会议

11:02联系运维或者有后台服务监控相关权限同学

11:05需要运维或者相关权限同学协助查看整个服务链路监控:DNS ->DDOS ->WAF ->公网CLD ->政务认证服务->数据库各个服务监控指标是否存在瓶颈

11:07 监控排查发现资源负载瓶颈不在链路上面,反馈给产研同学,主要 看带宽

11:09 王,带宽限制500兆掉200多兆,理论瓶颈出现在这里

11:10 带宽曲线图与QPS曲线图一致

11:14 切换数据库-3监控图,1/2数据库是没负载的,数据库压力都打在3号数据库

11:20 进入日志oppi接口,查看报错信息

11:24 m,数据库报错看不出来问题,组件有原因导致日报错,不影响

11:25 疑问掉坑是否导致数据库代码占满

11:26 m,数据库没看到其他详细日志,重压下,打印日志

11:27 加完日志,下午继续排障

11:30查看根据时间查询表数据是有索引

11:40 麒琳,tce的mgdb,产研这边的适配工作,tce平台没了,需要确认,目前没办法,要资源没资源,要啥没啥,等后面有资源有了在查,跟产品反馈下以后把mgdb移到tce上面去

11:42 我们这边资源有限 ,目前只能调优

11:45 确认外网 压测带宽有限制

11:50 许,升级服务,完成后再复压

14:22 产研同学给出建议做出重新打包发版再进行复测

14:30 临时突破口

复测结果与第一次压测结果季度相似,当时立马反馈给产研同学,是否存在配置host问题,因为该问题在8号解决过一次,由于配置hosts里面没有这三个域名解析

14:33 问题已定位

【起因回顾】

11月8日该接口排障已通过strace工具进行日志对账,排查发现pod没有pod没有写host

研发同学,通过strace命令跟了下服务,看了下他耗时的那段时间是在干什么,发现他在请求dns,然后比对了下异常和正常机器里面的dns,发现dns没有houst

在后面的交接中腾讯产研同学没有跟道一产研同学说明改host的问题,导致道一同学在部署的时候没注意到

【复测结果】

产研收到反馈后,重新对houst配置后重启,复测4次结果比较理想

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【问题背景】
  • 【排障过程】
  • 【复测结果】
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档