项目某后台接口QPS出现周期性的掉坑现象。每一次耗时的峰值,都对应一次QPS掉坑。
从波形图来看一定是资源耗尽,才会出现周期性的掉坑现象。分析问题之前,首先要拿到整个链路,如下:
压测机(运行Jmeter脚本)--> NAT网关 --> STGW --> nginx --> 项目后台
这里每个环节都可能出问题,需要每个链路去排查。
CPU、内存都不高,函数耗时也不长。看来压测流量还没打到业务后台,需要继续往前找原因。
下面是 23:41 ~ 23 :50之间,场景getlist压测时候的rpc 耗时,平均耗时都在 50ms以下 。
外层nginx的access日志,23:41~23:44之间访问量为0。这个现象和压测工具界面上看的QPS表现一致,说明压测流量没有过来。
NAT网关出带宽为5000 Mbps,实际使用不到20 Mbps,排除。
查看压测机的CPU,内存和网络情况,也没有发现啥异常情况。
业务方的压测同学提供了如下的信息:
掉坑的地方会出现connection timeout
,该接口耗时高达31秒
拉了NAT网关的同学一起来排查问题,发现确实是EIP不够用的问题。
给NAT绑定了10个EIP,问题得以解决
通过NAT网关配置出口IP往往一开始只配置一个IP,端口数的上限是65535。对于实时通讯的场景来说,需要保持大量的长连接,所以需要提高端口数量。
整体排查思路如下:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。