首页
学习
活动
专区
工具
TVP
发布

我把线上CPU打到100%,吓尿了

我和小组伙伴最近负责的系统今天上线了,因为涉及到的业务特别多所以选择白天发布,怕出问题找不到对应的负责人。

看到3点25那个full gc没,我发布上去一分钟不到就疯狂GC,我当时就吓尿了,马上点了回滚按钮。

而且我发现cpu几乎在我发布的瞬间,直接打到了峰值。

所幸只发布了一台,我紧张的望向了周围,发现周围的同事没注意到我,我顿时没那么紧张了,拿起桌上用剩下的纸巾搽掉了我鬓角马上留下的汗水。

我其实已经知道大概是什么问题了,无非就是死循环,或者大对象什么的。

注:以下代码都是伪代码,为了还原排查过程

一般CPU100%疯狂GC,都是死循环的锅,那怎么排查呢?

先进服务器,用top -c 命令找出当前进程的运行列表

按一下 P 可以按照CPU使用率进行排序

显示Java进程 PID 为 2609 的java进程消耗最高

然后我们需要根据PID 查出CPU里面消耗最高的进程

使用命令 top -Hp 2609 找出这个进程下面的线程,继续按P排序

可以看到 2854 CPU消耗最高

image-20200331222532604

2854是十进制的,我们需要转换为十六进制,转换结果:b26

接下来就需要导出我们的进程快照了,看看这个线程做了啥

jstack -l 2609 > ./2609.stack

再用grep查看一下线程在文件里做了啥

cat 2609.stack |grep 'b26' -C 8

我这里就随便定位一个,基本上这样查都可以定位到你死循环的那个类,那一行,这里你还可以在jstack出来的文件中看到很多熟悉的名词,至于是啥,你们留言告诉我好了,就当是个课后作业了。

我写了个伪代码,看看当时我为啥会写出这个死循环,对了当时我上线的是预发,也是后台系统非线上的,虽然都是自己在玩,但是大家还是要引以为戒。

我当时写了个代码准备去查出数据库的数据,订正下日期,仔细看没问题,但是我忘了数据库的偏移值自己去计算了,因为以前都是框架,自己临时写的就没管。

导致每次都能查出10个数据,在最后判断的时候就一直true不退出了,其实最后会退出,但是得循环很多次。

我这里退出的逻辑比较取巧,就是想着最后一次查询肯定跟我的页数不一样,那就是最后一页了,那我就处理完退出。

结果没想到也是个坑了。

大家写的时候也要注意很多小坑,还有代码一定要本地测了再发,我这次其实是本地发现了,然后想着干脆就写个排查经过的吧,机制吧。

这个demo顺便带大家温习一下线上100%cpu故障的排查,下次我可能搞点内存泄露,集群宕机什么的故障,这样就有素材了呀。

如果真出问题,第一时间找个三歪这样的背锅侠,排查过程自己去电脑上操作一下,最近有点忙,准备写个分布式锁的文章,如何?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200407A0AN0D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券