学习
实践
活动
专区
工具
TVP
写文章
专栏首页CSIG质量部压测团队【项目实战-9】DNS解析触发母机QPS限频
原创

【项目实战-9】DNS解析触发母机QPS限频

【问题表现】

项目官网某接口接入CLB后,10台机器,QPS只能打到4.44k, 但通过ip:port 直连后端单台机器 ,QPS能达到9.43k。CLB 连接10 台后端服务器容量,不及IP直联1台服务器的容量。

压测流量链路图如:

jmeter -> node接入层 -> CLB -> 后端10台机器:qps 4.44k,错误率6% ,504超时(Node等待后端超时)

jmeter -> node接入层 -> ip:port -> 后端单台机器:qps 9.43k

【问题分析和排查思路】

1.首先怀疑是CLB限频问题。

从上面的现象来看,引入的变量是CLB,而且波形图也是比较典型的限频问题,所以一开始怀疑CLB是不是做了限频操作。拉了CLB的同学一起来分析,他们比较有经验的提出了排查问题的思路:简化问题,抓包分析。如何简化呢?

  • node接入层固定为一台机器。
  • 后端RS也固定为一台机器。
  • CLB由7层切换为4层,简化链路。    4层链路对应: CVM(node接入层)--  VPCGW   --  TGW  -- RS    7层链路对应: CVM(node接入层)--   VPCGW --  TGW  -- STGW -- RS
  • 从接入层CVM和后端RS分别抓包,以确认是不是CLB中间链路的问题。

2.抓包分析。对接入层CVM的子机和母机,RS的子机和母机分别抓包,没有发现超时包。

3.重新聚焦504 timeout问题,发现Node接入层的响应时间都集中在5秒的倍数上,具有统计学规律。研发同学结合经验推测问题可能出现在DNS域名解析服务上。

4.在母机上使用iptables -t mangle -nvL ,确认是DNS限频问题。

5.在子机上尝试打开DNS缓存服务

yum install -y nscd
systemctl enable nscd
systemctl start nscd

6.修改后验证,问题得已解决。

【总结】

1. 为何母机要有DNS限频?其原因是对内网服务保护。所以一般是没有权限去看母机的一些限制,需要找网络的人去看。

2. 为何抓包没有抓到超时包?其原因是指定port抓包,并没有抓到53端口dns包。比如可以使用tcpdump -i any -w /data/test.cap 命令抓所有的包,缺点是包会比较大。

3. 整个网络链路就像洪水一样,到底被那个环节拦住,是需要一环一环的去分析排查。

【附】开启NSCD DNS缓存服务的优点和缺点

  • 优点
  • 本地缓存DNS解析信息,提供解析速度。
  • DNS服务挂了也没有问题,在缓存服务时间范围内,解析依旧正常。
  • 缺点
  • DNS解析信息会滞后,如域名解析更改需要手动刷新缓存,NSCD不适合做实时的切换的应用,目前对于依赖DNS切换的服务,建议不要开启DNS缓存。

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 【必看】社区文章目录

    Nanako
  • 社区精华文章目录

    cailynyu
  • 全链路压测如何排障调优 — 先导篇

    我们团队保障了很多KA项目(第七次人口普查项目,广交会等)的后台稳定性,覆盖14亿中国人口,后台接口的并发量达到11万的QPS。在生产环境进行全链路压测的过程中...

    杨珂
  • 谈谈不为人知的 xray 子域名

    不管是白帽子用于漏洞挖掘还是企业进行日常安全巡检,web 漏扫首先要问题的问题是解决扫描目标,并找准目标探测入口。

    Timeline Sec
  • 千亿级HttpDNS服务是怎样炼成的

    "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

    鹅厂网事
  • 技术干货|新型漏洞威胁攻防思路拆解

    新型网络安全漏洞伴随着5G、AI、云计算、大数据等新技术的应用而出现,相较于传统漏洞,新型漏洞藏匿于技术底层,易造成全局性影响且完全修复的难度大,一旦被恶意利用...

    腾讯安全
  • SpringCloud Alibaba Sentinel实现熔断与限流

    ​ https://github.com/alibaba/Sentinel/releases

    OY
  • 万字长文:分享前端性能优化知识体系

    为什么要做性能优化?性能优化到底有多重要? 网站的性能优化对于用户的留存率、转化率有很大的影响,所以对于前端开发来说性能优化能力也是重要的考察点。

    coder_koala
  • 7000字前端性能优化总结 | 干货建议收藏

    为什么要做性能优化?性能优化到底有多重要? 网站的性能优化对于用户的留存率、转化率有很大的影响,所以对于前端开发来说性能优化能力也是重要的考察点。

    coder_koala
  • 黄文才:云智天枢AI中台架构及AI在K8S中的实践

    2019年9月7日,云+社区(腾讯云官方开发者社区)主办的技术沙龙——AI技术原理与实践,在上海成功举行。现场的5位腾讯云技术专家,在现场与开发者们面对面交流,...

    腾讯云开发者社区技术沙龙
  • 通关必读—linux面试题(带答案)

    答案linux考试题 1.在登录Linux时,一个具有唯一进程ID号的shell将被调用,这个ID是什么(b) A.NID B.PID C.UID C.CI...

    全栈程序员站长
  • ffplay之read_thread线程里的for循环读取数据源码解读

    大家好,我是小涂,今天继续给大家分享ffplay源码解析,今天也是最后一篇关于read_thread线程的解析,分享完这个之后,会接着分享视频和音频解码线程以及...

    用户6280468
  • 深入浅出监控神器Prometheus

    点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 |...

    芋道源码
  • 监控神器Prometheus,开箱即用!

    点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 |...

    芋道源码
  • 火线安全沙龙云安全专场-浅析云存储的攻击利用方式

    本次的议题,关于云存储的一个攻击利用方式,在SRC漏洞挖掘,或在火线安全平台的众测项目中,我们也会收到很多关于对象存储的一个劫持和权限配置的一些问题,对象存储在...

    UzJu@菜菜狗
  • 浅析云存储的攻击利用方式

    本次的议题,关于云存储的一个攻击利用方式,在SRC漏洞挖掘,或在火线安全平台的众测项目中,我们也会收到很多关于对象存储的一个劫持和权限配置的一些问题,对象存储在...

    火线安全

扫码关注腾讯云开发者

领取腾讯云代金券