前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >代码逻辑死循环导致线上CPU飙升问题排查

代码逻辑死循环导致线上CPU飙升问题排查

作者头像
翎野君
发布2024-03-05 09:15:47
850
发布2024-03-05 09:15:47
举报
文章被收录于专栏:翎野君翎野君

背景

今天下午出现告警提示线上环境机器的CPU突增到100%,持续约两分钟又回落到正常水平。

结论

文件导出时由于逻辑漏洞导致部分场景,填充excel时出现死循环,当数据填充到一定量时,就会抛异常而后捕捉到,跳出循环。

一般场景分析

一般来说,CPU高有以下几种常见原因:

业务请求和处理的并发量大,并且业务中包含较大的运算量; 业务代码存在Bug,出现了过多的冗余计算或者死循环; 由于可用内存空间不足(包括分配太小,内存没有合理释放导致的泄露),导致频繁进行垃圾回收造成的高CPU;

排查流程

出现问题时,注意是问题发生的时候,问题已经不存在了,现场已经被破坏了,如机器重启,如异常消失等,都无法通过一下方式探析,因为这类问题属于实时问题范畴。

代码语言:javascript
复制
1.使用top命令查看使用CPU过高的进程
top
2.使用 top -H -p [pid]查看使用CPU过高的线程
top -H -p 1113
3.使用jstack -l [pid]查看jvm当前的线程信息
jstack -l 1113
输出日志中,重点关注nid 的值,可以看到是16进制的,把之前使用 top -H -p 1113获取到的线程id转成16进制(比如上面的1114对应16进制45a),用这个值过滤 jstack -l 1113 | grep 45a
这样就能定位到有问题的线程了。

上述流程不可用,我们可以借助gc.log来分析

1.运行sz filename,会将文件下载到windows本地

2.可以使用https://gceasy.io/,用来分析gc日志,帮助我们判断问题。

排查概要

发现告警时,CPU水平已经回落了,因为CPU飙升问题的排查具有实时性的特点,借助gc.log去进行分析。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2024-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • 结论
  • 一般场景分析
  • 排查流程
  • 排查概要
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档