专栏首页悦智云原生压测团队根据用户id获取对应的组织管理范围 - qps限频断层
原创

根据用户id获取对应的组织管理范围 - qps限频断层

【问题背景】

压测执行:并发数600,脚本含有依赖包,执行持续时间300秒

压测结果:qps曲线出现严重下坠以及断层,

【排障过程】

10:50发了该问题及时升级,同时拉起排障会议解决

11:00拉相关人员上会:架构、运维、研发、涉及ISV团队协助进行性能排障会议

11:02联系运维或者有后台服务监控相关权限同学

11:05需要运维或者相关权限同学协助查看整个服务链路监控:DNS ->DDOS ->WAF ->公网CLD ->政务认证服务->数据库各个服务监控指标是否存在瓶颈

11:07 监控排查发现资源负载瓶颈不在链路上面,反馈给产研同学,主要 看带宽

11:09 王,带宽限制500兆掉200多兆,理论瓶颈出现在这里

11:10 带宽曲线图与QPS曲线图一致

11:14 切换数据库-3监控图,1/2数据库是没负载的,数据库压力都打在3号数据库

11:20 进入日志oppi接口,查看报错信息

11:24 m,数据库报错看不出来问题,组件有原因导致日报错,不影响

11:25 疑问掉坑是否导致数据库代码占满

11:26 m,数据库没看到其他详细日志,重压下,打印日志

11:27 加完日志,下午继续排障

11:30查看根据时间查询表数据是有索引

11:40 麒琳,tce的mgdb,产研这边的适配工作,tce平台没了,需要确认,目前没办法,要资源没资源,要啥没啥,等后面有资源有了在查,跟产品反馈下以后把mgdb移到tce上面去

11:42 我们这边资源有限 ,目前只能调优

11:45 确认外网 压测带宽有限制

11:50 许,升级服务,完成后再复压

14:22 产研同学给出建议做出重新打包发版再进行复测

14:30 临时突破口

复测结果与第一次压测结果季度相似,当时立马反馈给产研同学,是否存在配置host问题,因为该问题在8号解决过一次,由于配置hosts里面没有这三个域名解析

14:33 问题已定位

【起因回顾】

11月8日该接口排障已通过strace工具进行日志对账,排查发现pod没有pod没有写host

研发同学,通过strace命令跟了下服务,看了下他耗时的那段时间是在干什么,发现他在请求dns,然后比对了下异常和正常机器里面的dns,发现dns没有houst

在后面的交接中腾讯产研同学没有跟道一产研同学说明改host的问题,导致道一同学在部署的时候没注意到

【复测结果】

产研收到反馈后,重新对houst配置后重启,复测4次结果比较理想

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 小蜜蜂公益译文 -- NISTIR 8011 第4卷 安全控制评估自动化支持:软件漏洞管理(下)

    本节提供了符合NIST SP 800-37和NIST SP 800-53A的安全评估计划模板。有关文档元素的描述,请参见本NISTIR第1卷第6节。第1卷的第9...

    绿盟科技研究通讯
  • 不懂RPC实现原理怎能实现架构梦

    RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术...

    技术zhai
  • 腾讯云网站管家WAF 一指禅

    腾讯云网站管家优势陈述腾讯云网站管家:共享腾讯Web 安全防护能力,让受护用户Web 业务轻松部署腾讯业务安全级别防护能力

    胡文翠
  • 基于kubernetes的分布式限流

    做为一个数据上报系统,随着接入量越来越大,由于 API 接口无法控制调用方的行为,因此当遇到瞬时请求量激增时,会导致接口占用过多服务器资源,使得其他请求响应速度...

    Zephery
  • 06-Sentinel限流熔断应用实践[通俗易懂]

    大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说06-Sentinel限流熔断应用实践[通俗易懂],希望能够帮助大家进步!!!

    Java架构师必看
  • Sentinel服务治理知识梳理【原理笔记】

    通过运行指标控制 1.基于QPS。备注:使用RuleConstant.FLOW_GRADE_QPS策略 2.线程数。备注:使用RuleConstant.FLOW...

    瓜农老梁
  • 从 0 开始构建一个亿级请求的微服务架构

    单体应用因其架构简单、使用技术门槛低、研发快速上手、项目快速上线等特点是创业公司初级阶段的必然产物。随着平台用户规模的递增,产品功能的丰富以及需求迭代的频率也会...

    Java架构师必看
  • 直播系统聊天技术(四):百度直播的海量用户实时消息系统架构演进实践

    本文原题“百度直播消息服务架构实践”,由百度APP消息中台团队原创分享于“百度Geek说”公众号,为了让文章内容更通俗易懂,本次已做排版优化和内容重新划分,原文...

    JackJiang
  • 直播系统聊天技术(四):百度直播的海量用户实时消息系统架构演进实践

    本文原题“百度直播消息服务架构实践”,由百度APP消息中台团队原创分享于“百度Geek说”公众号,为了让文章内容更通俗易懂,本次已做排版优化和内容重新划分,原文...

    JackJiang
  • 生产实践 | 基于 Flink 的短视频生产消费监控

    短视频带来了全新的传播场域和节目形态,小屏幕、快节奏成为行业潮流的同时,也催生了新的用户消费习惯,为创作者和商户带来收益。而多元化的短视频也可以为品牌方提供营销...

    Spark学习技巧
  • 作业帮基于 StarRocks 画像系统的设计及优化实践

    作业帮为提高孩子学习效率通过搜索、答题、咨询等各种行为数据以及辅导效果等结果数据,利用算法、规则等技术手段建立用户画像,用于差异化辅导提升学习效率。我们根据画像...

    深度学习与Python
  • 小游戏如何应对大流量?Shopee Shake的大促实践

    每年 Shopee 会在五至十二月的每个大促节点举行电视直播活动。每次大促活动时,各市场的运营人员会与当地电视台合作,在节目直播过程中插入一段玩 Shopee ...

    Shopee技术团队
  • 即时通讯IM技术领域提高篇

    掉线后,根据不同的状态需要选择不同的重连间隔。如果是本地网络出错,并不需要定时去重连,这时只需要监听网络状态,等到网络恢复后重连即可。如果网络变化非常频繁,特别...

    Allen.Wu
  • 《企业IT架构转型之道》读书笔记(部分3)

    分布式服务体系建设后,整个淘宝平台变成了一个复杂无比的服务交互链路网。这会带来很多问题,比如:

    SammyLiu
  • 知名图片分享平台 Pinterest 如何有把握地扩展 Kubernetes

    作者:Anson Qian,译者:冯旭松,原文:https://stackshare.io/pinterest/scaling-kubernetes-with-...

    CNCF
  • 地理信息系统(GIS)系列——Portal for ArcGIS

    Portal 是一个基于 Web 的应用,它能提供个性化,单点登陆,不同源的内容聚合,和信息系统的表示层集中。聚合是整合不同 Web 页面源数据的过程。为了提供...

    魏晓蕾
  • Sentinel 流控规则详解

    在前面两篇文章给大家介绍了 Sentinel 的功能和基本使用。现在我们继续来学习 Sentinel 控制台的基本使用,以及一些规则配置的说明。让大家能够在工作...

    没有故事的陈师傅

扫码关注云+社区

领取腾讯云代金券