专栏首页云原生压测团队【项目实战-9】DNS解析触发母机QPS限频
原创

【项目实战-9】DNS解析触发母机QPS限频

【问题表现】

项目官网某接口接入CLB后,10台机器,QPS只能打到4.44k, 但通过ip:port 直连后端单台机器 ,QPS能达到9.43k。CLB 连接10 台后端服务器容量,不及IP直联1台服务器的容量。

压测流量链路图如:

jmeter -> node接入层 -> CLB -> 后端10台机器:qps 4.44k,错误率6% ,504超时(Node等待后端超时)

jmeter -> node接入层 -> ip:port -> 后端单台机器:qps 9.43k

【问题分析和排查思路】

1.首先怀疑是CLB限频问题。

从上面的现象来看,引入的变量是CLB,而且波形图也是比较典型的限频问题,所以一开始怀疑CLB是不是做了限频操作。拉了CLB的同学一起来分析,他们比较有经验的提出了排查问题的思路:简化问题,抓包分析。如何简化呢?

  • node接入层固定为一台机器。
  • 后端RS也固定为一台机器。
  • CLB由7层切换为4层,简化链路。    4层链路对应: CVM(node接入层)--  VPCGW   --  TGW  -- RS    7层链路对应: CVM(node接入层)--   VPCGW --  TGW  -- STGW -- RS
  • 从接入层CVM和后端RS分别抓包,以确认是不是CLB中间链路的问题。

2.抓包分析。对接入层CVM的子机和母机,RS的子机和母机分别抓包,没有发现超时包。

3.重新聚焦504 timeout问题,发现Node接入层的响应时间都集中在5秒的倍数上,具有统计学规律。研发同学结合经验推测问题可能出现在DNS域名解析服务上。

4.在母机上使用iptables -t mangle -nvL ,确认是DNS限频问题。

5.在子机上尝试打开DNS缓存服务

yum install -y nscd
systemctl enable nscd
systemctl start nscd

6.修改后验证,问题得已解决。

【总结】

1. 为何母机要有DNS限频?其原因是对内网服务保护。所以一般是没有权限去看母机的一些限制,需要找网络的人去看。

2. 为何抓包没有抓到超时包?其原因是指定port抓包,并没有抓到53端口dns包。比如可以使用tcpdump -i any -w /data/test.cap 命令抓所有的包,缺点是包会比较大。

3. 整个网络链路就像洪水一样,到底被那个环节拦住,是需要一环一环的去分析排查。

【附】开启NSCD DNS缓存服务的优点和缺点

  • 优点
  • 本地缓存DNS解析信息,提供解析速度。
  • DNS服务挂了也没有问题,在缓存服务时间范围内,解析依旧正常。
  • 缺点
  • DNS解析信息会滞后,如域名解析更改需要手动刷新缓存,NSCD不适合做实时的切换的应用,目前对于依赖DNS切换的服务,建议不要开启DNS缓存。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【必看】社区文章目录

    Nanako
  • 如何做压测?

    在开始做压测计划之前,一定要先明确压测的目标是什么,虽然最终的目标肯定都是优化系统的性能,但是不同的出发点,可能需要采取不同的方法。

    范蠡
  • 【云+社区年度征文】TeamLeader如何Owner老系统?

    做互联网的童鞋们一定都有过这样的经历,看过很多架构书,看过很多架构师成长指南,看过很多优秀的案例分享以及讲座。所以当我们刚毕业的时候,对于大厂的认知一定都是这样...

    小诚信驿站
  • 全链路压测如何排障调优 — 先导篇

    我们团队保障了很多KA项目(第七次人口普查项目,广交会等)的后台稳定性,覆盖14亿中国人口,后台接口的并发量达到11万的QPS。在生产环境进行全链路压测的过程中...

    杨珂
  • 【项目实战-16】SSO触发限频

    某项目生产环境压测过程中,不带登录态访问官网首页,QPS值能达到5W多;带登录态访问首页,QPS下降10倍,不到5K。

    Nanako
  • 千亿级HttpDNS服务是怎样炼成的

    "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

    鹅厂网事
  • DNSPod十问吴洪声:云时代,DNS面临哪些安全挑战?

    ? 8月5日,腾讯云中小企业产品中心总经理吴洪声受邀以演讲嘉宾的身份参加第八届互联网安全大会(简称“ISC 2020”),演讲主题为《DNS在云时代的安全挑战...

    腾讯云DNSPod团队
  • 开发更高可用、高质量的服务的一些建议

    产品要求的功能都都开发完了,但这并不是终结。怎么样做才能让我们的服务具有更好的质量。 笔者结合自己的遇到的问题和工作中的经验,并以提问的方式,给读者一点点建议

    sunsky
  • ContainerDNS性能优化之路 17W到1000W QPS超高性能DNS技术实践

    用户1263954
  • 浅谈云上攻防--SSRF漏洞带来的新威胁

    前言 在《浅谈云上攻防——元数据服务带来的安全挑战》一文中,生动形象的为我们讲述了元数据服务所面临的一系列安全问题,而其中的问题之一就是通过SSRF去攻击元数...

    云鼎实验室
  • 中国云基础资源产业联盟正式成立!

    中国云基础资源产业联盟正式成立! 在4月29日召开的2021年腾讯云DNSPod云基础资源峰会上,DNSPod联合多方共同发起成立中国云基础资源产业联盟,通过...

    腾讯云DNSPod团队
  • 应用防护配置实践

    由于很多用户有Web应用防护的需求,但是对安全不是非常了解,购买WAF后没有很好的使用起来。本篇文章为这类用户提供一个详细的引导,让用户在初始化配置或者遇到攻击...

    etanmiao
  • 千万并发连接下,如何保障网络性能

    过去几十年互联网呈爆发式的增长,内容的丰富以及层出不穷的DDoS攻击等,对网络性能提出了极大的挑战,也同样促进了网络基础设施的快速发展。运营商的带宽越来越大,C...

    姜凤波
  • 唯品会特卖秒杀系统的架构设计和实战全集(艾编程Java架构师视频教程)

    【学完本节课你将掌握哪些点】 1. 电商平台秒杀系统的由来; 2. 单机十万级别qps的秒杀系统的架构和设计; 3. 如何使用docker快速搭建中间件服...

    艾编程
  • 架构设计之微服务配置中心选型

    在撰写这篇技术选型的文章之前,是比较犹豫的。因为,以其中一个开源项目开发者的身份,去写一篇三个开源项目的对比,即便很克制的去客观的比较,也很难有信服力。这就像,...

    Bug开发工程师
  • 【热点】我眼中的2014年互联网大事件

    看了许多关于2014年度科技与互联网的大事盘点,但大多局限于国内或者安全等小的领域,那么放眼整个国际互联网,2014年有哪些值得回顾的大事呢? 瘫痪 脆弱的 D...

    小莹莹
  • 浅谈云上攻防——CVE-2020-8562漏洞为k8s带来的安全挑战

    前言 2021年4月,Kubernetes社区披露了一个编号为CVE-2020-8562的安全漏洞,授权用户可以通过此漏洞访问 Kubernetes 控制组件...

    云鼎实验室
  • 主流微服务配置中心对比

    如果您对微服务配置中心的功能不是很了解,可以看下以下的背景介绍,若比较熟悉可以直接跳过。

    java思维导图
  • 深度对比三种主流微服务配置中心

    在撰写这篇技术选型的文章之前,是比较犹豫的。因为,以其中一个开源项目开发者的身份,去写一篇三个开源项目的对比,即便很克制的去客观的比较,也很难有信服力。这就像,...

    芋道源码

扫码关注云+社区

领取腾讯云代金券