专栏首页云原生压测团队【项目实战-12】排查12小时,竟是CLB安全组没打开
原创

【项目实战-12】排查12小时,竟是CLB安全组没打开

【摘要】

案例:程序逻辑在没有任何变更的情况下,研发耗费了12小时20200610 02:00 ~ 20200610 14:00) 排查登录接口耗时长的问题。此案例提供了腾讯云上全链路(ecdn->waf->clb->ngnix->业务方后台)的排查思路: 简化链路,逐环节排查

【问题表现】

合作方APP,准备提交苹果审核的时候,发现登录接口会卡很长时间,然后就报错。

【问题分析与排查思路】

1. 首先排查业务方后台,这个对开发而言是最容易的。

【20200610 02:00】首先怀疑接口参数不正确,因为DB最近一直在做数据迁移,代码可能没有同步。

 开发检查了业务逻辑代码,并未发现明显异常问题。

【20200610 03:00】排查redis。发现redis中的token不存在,怀疑redis爆满问题。

 清空redis,并重启redis读写实例,问题没有改善。

【20200610 11:13】分析业务日志,确实有耗时长的问题,但无从分析。

token获取不到的响应包如下:

{"accessToken":null,"identityToken":null,"tokenType":null,"refreshToken":null,"error":"invalid_grant","expiresIn":0}

接口调用无论是成功还是失败,耗时都比较短。重新设置超时为3秒,发现耗时不稳定:一半请求是300ms,一半请求是3秒。

2. 怀疑链路有问题,进行全链路排查:ecdn -> waf -> clb -> nginx

首先怀疑ecdn。运营同学把ecdn切换到专用链路,问题没有解决。

去掉ecdn,耗时现象依然存在

把域名直接cname到waf的域名,绕过ecdn。发现延时并没有改善。从日志来看,存在请求时间3秒左右的情况,概率还很高。

抓包分析,源站确实存在3秒回包的现象

分析WAF,发现某个回源IP(106.55.175.62:443)有不少连接超时。

该回源IP对应的是一个CLB,所以去看看CLB是否有异常。

入站做了限制。从操作记录来看,是昨晚做压测的时候没有去掉,具体时间是昨晚10:43分开始。

【总结】

  1. 收敛权限:无关人员账号已完成清理,并把控制台写操作日志拉出来做一个变更大盘。
  2. 更高效的排方式: 后类似问题再出现时,寻找最短恢复路径,可以按照业务访问路径端到端一段一段的,逐步缩小问题。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【必看】社区文章目录

    Nanako
  • CLB健康检查原理及异常排查

    七层健康检查,使用HTTP协议,支持GET、HEAD两种请求方法,HEAD只获取头部信息,不获取实际内容,更加轻量的探测,两种方式,都是依赖RS返回的HTTP ...

    Rokas.Yang
  • 使用ELK分析腾讯云CLB日志

    最近在使用腾讯云,想对访问日志进行收集与分析,发现CLB(负责均衡)日志只能保存到COS上面,而且是每个CLB没小时压发送个gz压缩包到COS。

    三杯水Plus
  • 负载均衡的健康检查

    腾讯云的负载均衡产品发布至今,产品形态变化还是比较大的,最开始有传统型负载均衡,应用型负载均衡,后面结合自身产品特性以及云上相关用户的产品需求,逐渐开始改造,使...

    云售后焦俊成
  • Xilinx与Altera的FPGA区别

    两家FPGA的区别本人认为有两方面吧:1.基本逻辑资源;2.内部基本架构。(也可以看成一方面吧)

    碎碎思
  • 举例分析 Intel FPGA 和 Xilinx FPGA 的区别

    大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。...

    FPGA技术江湖
  • CLB健康检查异常排查流程

    CLB健康检查是指负载均衡实例定期向后端服务器发送 Ping、尝试连接或发送请求来测试后端服务器运行的状况。当后端服务器实例被判定为不健康时,负载均衡实例将不会...

    苏欣
  • FPGA Xilinx Zynq 系列(三)

    今天给大侠带来FPGA Xilinx Zynq 系列第三篇,本篇内容目录简介如下:

    FPGA技术江湖
  • 创造游戏世界越来越难?带你了解负载均衡的秘密

    iPhone 13系列明日就要正式发售了,今年的iPhone可以说是让人眼前一亮,光是120hz的高刷就已经让众多果粉激动了。

    云巴巴
  • 全国首档极客真人秀上线:1分钟打开智能保险箱,调包酒店外卖,36秒无接触盗取手机隐私

    跟之前程序员真人秀不同,不是20个人参赛然后分组,而是20个团队或个人带着自己的项目,接受评委的检验。

    量子位
  • 【腾讯云负载均衡CLB】跨地域绑定2.0(新版)IDC-IP最佳实践

    TCS-F
  • 双非末流一本面霸,十面阿里,七面头条,4个月斩获六个Offer!

    从二月份看到阿里云的招聘贴就投了,那是我最早投递的公司,当时也没什么经验,导致表现得很糟糕,最后四面跪,当时伤心到谷底,幸好跪得比较早,跪了之后简历被释放掉,还...

    Java架构技术
  • 优化IPv6业务可用性全过程

    导语| 截止到2020年5月,中国IPv6活跃用户已经高达2.83亿,云服务平台中完成IPv6改造的云产品占比超过64%。越来越多的用户会使用IPv6的CLB(...

    binwenli
  • 一键负载均衡联动防御,腾讯云WAF开启云原生Web防护新模式

    伴随着企业上云步伐的加快,云平台资源池中的Web应用呈现出呈爆发式增长趋势。如何在最大限度确保业务应用效能的基础上,提升网站安全防护架构与云环境的耦合度和适配...

    腾讯云安全
  • Python 抢火车票神器,支持候补抢票

    然饿大多数人碰到的是这种情况:当你满心期待摩拳擦掌准备抢票的时候,你会发现一票难求!想回趟家真难!

    Python编程与实战
  • CLB后端的CVM端口健康检查偶尔异常

    【排查步骤】 1、健康检查探测机制是clb的vip向后端cvm业务进行探测,所以先在cvm上抓包看是否有收到探测包

    Z .H
  • 【日志服务CLS】CLS+CLB整合初体验

    很早之前就使用过腾讯云版本的日志服务cls。个人的应用场景主要是想采集clb负载均衡的日志。但是早些时候腾讯云的负载均衡clb只能挂载单个ssl证书,早期域名比...

    对你无可奈何
  • 会议赛事 | 当经典CTF遇上“全栈”云环境,这场比赛到底有多刺激?!

    7月12日22点整,由GeekPwn携手腾讯安全云鼎实验室联合举办的云靶场挑战赛线上热身赛正式落下帷幕。经过36小时的激战,最终老牌战队Nu1L依靠稳定发挥解...

    云鼎实验室
  • 【项目实战-4】nodejs开启gzip,QPS提升6倍

    在压测项目生产环境中,发现首页的QPS一直在8k,未达到压测目标,但压测其他接口QPS能达到5w,需要排查出问题进行优化。

    Nanako

扫码关注云+社区

领取腾讯云代金券