线上服务GC问题,是JAVAJAVA程序比较典型的问题,也是非常考验工程师的排查能力。能真正排查定位的人不多,要么原理没吃透、要么没有实战经验,看到此问题无从下手。
过去2个月,转换服务、基础配置服务出现多次和GC相关的线上问题。有FULL GC过于频繁的,有Young GC耗时过长,CPU飙升等,这些问题带来了影响是:GC过程中
程序卡顿、程序执行耗时长、进一步导致服务超时从而影响到转换功能、基础上下游调用链。影响用户体验
将以最近一次基础服务FULL GC频繁的线上案例作为引子,详细介绍排查过程、思路、方法论;
1、从最近一次基础服务FULL GC频繁的线上案例说起
2、排查gc思路、方法论、过程
3、GC的原理介绍
2023-1-11至12号收到了基础配置服务监控告警频繁FULL GC,结合提示信息,使用skywalking找到具体的服务监控信息,通过skywalking追踪可以看到16点之前平均半个小时FULL GC 2个,16点平均1分钟2点
基础服务那天平均半个小时1次full gc
(由于基础服务监控信息没有保留超过有效期数据清掉了,借用格式转换的图来说明指标)
由于1-4的步骤通常可以让运维去执行,目前公司生产则一律由运维管理,所以直接找运维dump堆内存文件即可
通过命令
jmap -histo 7276 | head -n20
图片是借助网图,因生产没权限只有运维来执行
上图中,按照对象所占内存大小排序,显示了存活对象的实例数、所占内存、类名。可以看到排名第一的是:int[],而且所占内存大小远远超过其他存活对象。至此,我们将怀疑目标锁定在了 int[] 。
4、通过jmp命令进一步dump堆内存文件进行分析
锁定 int[] 后,我们打算dump堆内存文件,通过可视化工具进一步跟踪对象的来源。考虑堆转储过程中会暂停程序,因此我们先从服务管理平台摘掉了此节点,然后通过以下命令dump堆内存:
jmap -dump:format=b,file=heap 7276
5、借助mat工具分析dump堆文件
OOM/频繁full gc:主要观察堆、元数据区、栈
分析快照文件思路或者方法论:
1、内存占用过大的对象是什么?
2、这个对象被谁引用了?
3、定位到具体的代码
还有一种可能就是第三方中间件---如:tomcat,比如每个请求过来的时候tomcat都会为每个请求生成线程并创建2个缓冲区,缓冲区默认大小就是10M,这个时候想象下如果每个请求都会创建2个缓冲区,当
并发量特别大点时候也就创建很多缓冲区很有可能导致堆内存不够用导致oom。如果出现tomcat问题导致,这个时候就需要对tomcat有一定对掌握才能去定位解决。
mat 使用:
mat可以单独安装也可以利用eclipse安装Memory Analyzer插件,由于我电脑是mac m1芯片只能借助eclipse
1、首先将dump文件下载到本地,然后导入到mat工具/eclipse。如下图:
选择文件导入
导入后选择分析选项:
Leak Supacts Report(大概意思就是分析oom以及full gc具体信息),一般选择这个就足够了
查看内存占用过大的指标:
导入后首页会分析大概占用内存比例
下面图片很明显:bytes占用了36%的内存,占比最高
点击MAT的Histogram来进行查询,一般是按照占用内存倒序进行排序的。
shallow heap-浅堆内存(其实就是这个对象实际占用的内存总量)
retained heap-深堆内存(表达:可释放内存,也可以理解目前没有回收占用的内存总量)
查看占有内存多大的对象被谁引用了
点击MAT的dominator_tree,用来分析对象的调用链
定位具体的代码
点击MAT的thread_overview,线程简介图,这个里面有方法的调用链
分3个步骤分析即可,
1、观察name、shallow heap retained heap指标,一般也是倒序排序,
name是代表那个java类
shallow heap-浅堆内存(其实就是这个对象实际占用的内存总量)
retained heap-深堆内存(表达:可释放内存,也可以理解目前没有回收占用的内存总量)
2、查看占比最大2个即可,打开java.lang.thread @xd3330000展示详情,从下往上查看
3、查看线程详情
选中线程邮件点击详情Thread Details查看具体发生的异常信息
解决方案
业务代码导致频繁full gc ,优化业务代码即可。发生full gc有很多种原因,结合自己程序问题解决即可
上面整个案例的分析过程中,其实涉及到很多GC的原理知识,如果不懂得这些原理就着手处理,其实整个排查过程是很抓瞎的。
这里,我选择几个最核心的知识点,展开介绍下GC的运行原理,最后再给出一份实践指南。
堆内存结构
大家都知道: GC分为YGC和FGC,它们均发生在JVM的堆内存上。先来看下JDK8的堆内存结构:
可以看到,堆内存采用了分代结构,包括新生代和老年代。新生代又分为:Eden区,From Survivor区(简称S0),To Survivor区(简称S1区),三者的默认比例为8:1:1。另外,新生代和老年代的默认比例为1:2。
堆内存之所以采用分代结构,是考虑到绝大部分对象都是短生命周期的,这样不同生命周期的对象可放在不同的区域中,然后针对新生代和老年代采用不同的垃圾回收算法,从而使得GC效率最高。
YGC是什么时候触发的?
大多数情况下,对象直接在年轻代中的Eden区进行分配,如果Eden区域没有足够的空间,那么就会触发YGC(Minor GC),YGC处理的区域只有新生代。因为大部分对象在短时间内都是可收回掉的,因此YGC后只有极少数的对象能存活下来,而被移动到S0区(采用的是复制算法)。
当触发下一次YGC时,会将Eden区和S0区的存活对象移动到S1区,同时清空Eden区和S0区。当再次触发YGC时,这时候处理的区域就变成了Eden区和S1区(即S0和S1进行角色交换)。每经过一次YGC,存活对象的年龄就会加1。
FGC又是什么时候触发的?
下面4种情况,对象会进入到老年代中:
当晋升到老年代的对象大于了老年代的剩余空间时,就会触发FGC(Major GC),FGC处理的区域同时包括新生代和老年代。除此之外,还有以下4种情况也会触发FGC:
在什么情况下,GC会对程序产生影响?
不管YGC还是FGC,都会造成一定程度的程序卡顿(即Stop The World问题:GC线程开始工作,其他工作线程被挂起),即使采用ParNew、CMS或者G1这些更先进的垃圾回收算法,也只是在减少卡顿时间,而并不能完全消除卡顿。
那到底什么情况下,GC会对程序产生影响呢?
根据严重程度从高到底,我认为包括以下4种情况:
:FGC通常是比较慢的,少则几百毫秒,多则几秒,正常情况FGC每隔几个小时甚至几天才执行一次,对系统的影响还能接受。但是,一旦出现FGC频繁(比如几十分钟就会执行一次),这种肯定是存在问题的,它会导致工作线程频繁被停止,让系统看起来一直有卡顿现象,也会使得程序的整体性能变差。
:一般来说,YGC的总耗时在几十或者上百毫秒是比较正常的,虽然会引起系统卡顿几毫秒或者几十毫秒,这种情况几乎对用户无感知,对程序的影响可以忽略不计。但是如果YGC耗时达到了1秒甚至几秒(都快赶上FGC的耗时了),那卡顿时间就会增大,加上YGC本身比较频繁,就会导致比较多的服务超时问题。
:FGC耗时增加,卡顿时间也会随之增加,尤其对于高并发服务,可能导致FGC期间比较多的超时问题,可用性降低,这种也需要关注。
:即使YGC不会引起服务超时,但是YGC过于频繁也会降低服务的整体性能,对于高并发服务也是需要关注的。
其中,「FGC过于频繁」和「YGC耗时过长」,这两种情况属于比较典型的GC问题,大概率会对程序的服务质量产生影响。剩余两种情况的严重程度低一些,但是对于高并发或者高可用的程序也需要关注。
排查FGC问题的实践指南
通过上面的案例分析以及理论介绍,再总结下FGC问题的排查思路,作为一份实践指南供大家参考。
清楚从程序角度,有哪些原因导致FGC?
清楚排查问题时能使用哪些工具
公司的监控系统:大部分公司都会有,可全方位监控JVM的各项指标。
JDK的自带工具,包括jmap、jstat等常用命令:
可视化的堆内存分析工具:JVisualVM、MAT等
排查指南
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。