前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【项目实战-1】NAT网关的最佳实践

【项目实战-1】NAT网关的最佳实践

原创
作者头像
Nanako
修改2021-02-23 17:30:27
1.7K0
修改2021-02-23 17:30:27
举报

【问题表现】

项目某后台接口QPS出现周期性的掉坑现象。每一次耗时的峰值,都对应一次QPS掉坑。

【问题分析和排查思路】

从波形图来看一定是资源耗尽,才会出现周期性的掉坑现象。分析问题之前,首先要拿到整个链路,如下:

压测机(运行Jmeter脚本)--> NAT网关 --> STGW --> nginx --> 项目后台

这里每个环节都可能出问题,需要每个链路去排查。

1.首先查看业务后台的资源占用

CPU、内存都不高,函数耗时也不长。看来压测流量还没打到业务后台,需要继续往前找原因。

下面是 23:41 ~ 23 :50之间,场景getlist压测时候的rpc 耗时,平均耗时都在 50ms以下 。

2.分析nginx的日志,看看是否有压测流量

外层nginx的access日志,23:41~23:44之间访问量为0。这个现象和压测工具界面上看的QPS表现一致,说明压测流量没有过来。

3.查看NAT网关,看是否有带宽限制

NAT网关出带宽为5000 Mbps,实际使用不到20 Mbps,排除。

4.查看压测机的资源占用

查看压测机的CPU,内存和网络情况,也没有发现啥异常情况。

业务方的压测同学提供了如下的信息:

掉坑的地方会出现connection timeout,该接口耗时高达31秒

拉了NAT网关的同学一起来排查问题,发现确实是EIP不够用的问题。

给NAT绑定了10个EIP,问题得以解决

【总结】

通过NAT网关配置出口IP往往一开始只配置一个IP,端口数的上限是65535。对于实时通讯的场景来说,需要保持大量的长连接,所以需要提高端口数量。

整体排查思路如下:

  1. 首先要转变意识,不要停留在单点排查,要有全链路的意识
  2. 每个环节进行初步排查,看能否快速定位问题
  3. 实在没有办法,就只能抓包分析了

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【问题表现】
  • 【问题分析和排查思路】
    • 1.首先查看业务后台的资源占用
      • 2.分析nginx的日志,看看是否有压测流量
        • 3.查看NAT网关,看是否有带宽限制
          • 4.查看压测机的资源占用
          • 【总结】
          相关产品与服务
          NAT 网关
          NAT 网关(NAT Gateway)提供 IP 地址转换服务,为腾讯云内资源提供高性能的 Internet 访问服务。通过 NAT 网关,在腾讯云上的资源可以更安全的访问 Internet,保护私有网络信息不直接暴露公网;您也可以通过 NAT 网关实现海量的公网访问,最大支持1000万以上的并发连接数;NAT 网关还支持 IP 级流量管控,可实时查看流量数据,帮助您快速定位异常流量,排查网络故障。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档