首页
学习
活动
专区
工具
TVP
发布

PT运维技术

专栏成员
18
文章
25124
阅读量
12
订阅数
记一次EKS troubleshoting问题
周五下班时刻,开发人员跟我反馈有业务偶尔超时,但业务很长时间并未重现异常, 让开发者以网络抖动打发掉这些询问者(实在抽不开时间)。熟悉业务的人即将抽出调岗,新的同学刚入职时间不久,还不能非常熟练处理业务问题,这个时刻只能自己先顶上了。
richard.xia_志培
2022-11-30
7890
又见MTU问题导致页面加载缓慢
管理后台无法正常打开,如图所示,其他的同事一直处于这个状态,但其中一个同事可以正常打开。
richard.xia_志培
2022-11-30
9820
redis性能故障的思考
2月23日晚,业务方反馈应用有redis 超时现象,核心的服务也被波及到。
richard.xia_志培
2022-06-14
9010
502偶现故障的分析
周五的上午时候,被业务方同学喊过去解决技术问题。问题表象是:业务偶发http 502, 且一次502就会导致上游业务方修数据,因此急需解决这个问题。之前开发方大题描述过业务架构,但是笔者从来没有登陆过该业务的生产环境,具体的运维部署架构不太清楚。仅在沟通过程中,了解到业务全部部署在k8s集群中,502是发生在apisix 和后端pod之间:
richard.xia_志培
2022-06-14
2.2K0
记一次akamai CDN的故障
22日发生的cdn故障,对我们的业务产生严重影响(akamai应该为此赔偿客户损失)。由于故障发生在深夜,所以当时没有及时知晓故障,直到早上6点多才发现群里有处理故障信息,仔细阅读相关信息,发现已经是一个P-1故障。
richard.xia_志培
2022-06-14
8120
从Kafka的故障引发的思考
过去的Kafka的一起故障,虽然这起规则没有引起业务上损失,但是故障后的复盘值得深思。故障表现出来的现象和真实原因相差甚远。(不要根据现象就轻易下结论)
richard.xia_志培
2022-06-14
4360
极端场景下jraft的验证
最近1-2周, 业务侧基于性能和一致性的需求,测试和验证基于sofa-jraft的框架。由于上线后事关生产环境的稳定性,于是加入调研jraft/raft相关领域调研,确保生产环境即使在极端情况下,也在我们考量的范围之内。
richard.xia_志培
2022-06-14
1K0
运维体系建设套路
随着时间和工作经历的沉淀,会所在的领域逐渐形成一系列解决问题的'套路', 高端的叫法:方法论。有了'套路',就可以根据公司现状和组织特点建立相应的体系。
richard.xia_志培
2022-06-14
1.2K0
DB一次卡顿的事后优化
3月30日下班时间,一条业务线突发业务故障,业务方反馈用户无法访问。由于时间点比较特殊,DBA/开发/运维都在回家的途中,很难第一时间处理DB故障。20-30分钟后,DBA到家后,在抓取MySQL/OS等相关信息后,重启了数据库,问题得到解决。
richard.xia_志培
2022-06-14
1.2K0
数据库磁盘分区真的丢失了?
1周前的周四,中途被业务方拉过去解决一次DB故障。由于不太了解当时的业务场景,只是听DBA说数据库服务器数据分区的磁盘丢失(笔者从来没有经历过磁盘突然丢失的场景),拿着同事的账号登录到发生故障的数据库服务器上,根据进程找到对应的磁盘目录,执行touch /data/mysql/abc, 可以正常执行,说明挂载的/data分区所在的文件系统是可以写的,MySQL命令行进入test库中,执行create table id_a(id int); 卡主, 在另外的一个mysql会话终端中,show processlist是可以正常执行的, show table|show databases都是可以正常执行。现象上看只要是DDL的语句执行均被阻塞,正当准备跟踪MySQL 的所有线程的时候,数据库进程已经被DBA 命令kill掉了。DBA重新挂载了一次/data分区后,启动数据库后,问题得到解决(这种做法大概率存在数据丢失,看后续分析)。
richard.xia_志培
2022-06-14
9940
规划Redis真的需要预留一半内存?
前段时间,由于太多的因素造成redis故障, 负面影响较大。复盘后决定将内存超出内存一半就需要告警,便于运维人员及时介入处理。 网上这种redis规划内存预留一半的文章汗牛充栋(https://cloud.tencent.com/developer/article/1095192)。真实的情况下,真的需要预留下一半的内存吗? 搞清楚这个问题,需要弄清楚2个事情: 1. Redis bgsave/AOF重写的运行机制。 2. Linux下的进程内存分布以及redis内存管理机制。 先说问题1: 1.redis跟内存相关的运行机制莫过于rdb持久化/AOF重写/内存剔除策略(高版本redis还存在着内存碎片整理的配置选项), 其中AOF重写和rdb持久化都属于fork子进程来完成的。本次就以rdb持久化为例,rdb的持久化可以由持久化的配置策略或者命令行bgsave或者主从全同步触发。redis在做bgsave的时候,fork出子进程来做bgsave。具体的过程如下: rdbSaveBackground()中fork子进程 ---> rdbSave() ---> rdbSaveRio()。fork后子进程拥有和父进程一模一样的进程空间,虽然采用了COW机制(父子进程的虚拟内存指向相同的物理page),但是ps或者top命令中的RSS显示的值都会算成自己进程所占的物理内存,这个可能是很多运维同学/DBA同学经常可以眼见的现象,恐怕这个就是潜意识里需要内存预留一半的重要因素。
richard.xia_志培
2022-06-14
1.4K0
openresty LUA的ase加密的坑
在使用openresty(1.13.6.2)中使用lua对业务方的token进行加解密的时候,发现AES加密出来的结果和java/python有一定的出入,openresty lua 通过AES加密得到的结果比java/python的多出一串字符串。反之,正常加密串无法解密。
richard.xia_志培
2022-06-14
3.3K0
一次HTTPS请求缓慢的原因定位
在业务灰度环境交付后,QA同事通过windows 拨号自建V**线路方式去访问该环境(通过v**线路分流/区域解析),可以正常测试国内的N个业务的接口,但无法通过v**线路访问www.sina.com.cn,然后试着访问海外的业务接口(不同机房),打开非常缓慢,于是尝试各种站点【百度, 腾讯视频,支付宝等】。发现有的可以打开,有的无法打开,有的第一次打开很慢,第二次打开很快。
richard.xia_志培
2022-06-14
1.6K0
TCP?HTTP? 不同类型探测的引发的坑
nginx-gateway部署在公有云 A, 业务测试服务器部署在办公区机房B, 公有云region A 和 办公区机房 B通过soft V**互连。B机房中有不同类型的应用服务器【nodejs,java(tomcat)】做nginx-gateway的后端upstream节点。nginx-gateway编译安装了ngx_http_upstream_check_module插件,ngx_http_upstream_check_module用于做后端upstream节点的健康监测, healthcheck为每个upstream的后端节点配置有一个raise_counts/fall_couts状态的计数器。业务方同事反馈:从外部访问内部某些应用有概率出现超时, 经观察, nodejs,java(tomcat)的raise_counts计数器概率性地重置为0,
richard.xia_志培
2022-06-14
8510
MHA故障failover执行不成功的背后的大坑
线上环境OS为centos7.6 x64, DBA 在机房演练MHA故障切换,但每次切换脚本执行失败。
richard.xia_志培
2022-06-14
5210
第三方服务接口响应慢的深入分析
内部开发环境OS为centos6.8 x64, 请求第三方接口非常缓慢,应用报超时错误。
richard.xia_志培
2022-06-14
3.2K0
应用业务偶尔报500错误的原因定位
从23:35到次日早上07:30, 偶尔收到10.205.1.26/10.205.1.27服务器报警: 告警06:57:30 on 10.205.0.1.26 项目: Zabbix agent on 10.205.1.26 is unreachable for 5 minutes 详情:Agent ping:Down (1)
richard.xia_志培
2022-06-14
1.6K0
CDN故障案例content-encoding深入分析
同事反映在AWS的s3增加自定义header: Content-Encoding:gzip后,通过AWS 的cdn(cloudfront)加速后,chrome浏览器发现无法打开。
richard.xia_志培
2022-06-14
2.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档