前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Linux服务器如何快速定时CPU占用高的线程

Linux服务器如何快速定时CPU占用高的线程

作者头像
SmileNicky
发布2024-12-23 11:11:17
发布2024-12-23 11:11:17
23900
代码可运行
举报
文章被收录于专栏:Nicky's blog
运行总次数:0
代码可运行
场景描述

最近遇到一个生产环境,一个程序因为代码写的有问题,导致CPU占用很高,所以需要马上排查问题,首先要先找出哪个程序,具体代码在哪里,所以需要借助jstackjmap这些命令来定位具体的线程,查看具体的线程堆栈信息

问题模拟

为了模拟生产环境问题,需要写点代码,让AI写吧,但是不要oom,只是让cpu高就行,AI写的代码,接口传一个比较大的值,比如10000

代码语言:javascript
代码运行次数:0
复制
package com.example.demo.controller;

import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;

@RestController
public class HelloController {

    @GetMapping(value = "/test")
    public void test(@RequestParam(value = "num", defaultValue = "10000")Integer num) {
        // 定义线程数量,这里设置为CPU核心数的两倍,以确保高CPU使用率
        int numberOfThreads = Runtime.getRuntime().availableProcessors() * 2;
        Thread[] threads = new Thread[numberOfThreads];

        // 创建并启动线程
        for (int i = 0; i < numberOfThreads; i++) {
            threads[i] = new Thread(new IntensiveTask(num));
            threads[i].start();
        }
    }

    static class IntensiveTask implements Runnable {

        private Integer num = 10000;
        public IntensiveTask(Integer num) {
            this.num = num;
        }

        @Override
        public void run() {
            while (true) {
                // 创建一个大型数组
                int[] array = new int[num];
                // 使用计算密集型操作,如排序
                java.util.Arrays.sort(array);
                // 短暂休眠以避免完全占用CPU
                try {
                    Thread.sleep(1);
                } catch (InterruptedException e) {
                    Thread.currentThread().interrupt();
                    return;
                }
            }
        }
    }
}

将代码丢到开发环境,java启动程序

代码语言:javascript
代码运行次数:0
复制
 nohup java -jar demo-0.0.1-SNAPSHOT.jar > /opt/logs/output.log 2>&1 &

调用接口:

代码语言:javascript
代码运行次数:0
复制
curl http://127.0.0.1:8080/test?num=10000
问题处理

在window系统有任务管理器这些可视化界面可以看,在Linux服务器也有,比如top命令

  • 定位CPU占用高的进程 在Linux服务器,可以使用top命令,其中%CPU表示cpu占用率,%MEM表示内存占用率
代码语言:javascript
代码运行次数:0
复制
top

直接使用top来看有时候不能很直观,所以加点命令,

代码语言:javascript
代码运行次数:0
复制
top -b -n 1 | head -n 16

-b选项表示批处理模式,-n 1表示只运行一次top命令。head -n 16表示打印16行,这个行数根据具体情况加,因为我想打印出前10的进程

想要持续监控CPU和内存占用最高的前10个进程,加上watch命令,每1s会更新一次

代码语言:javascript
代码运行次数:0
复制
watch -n 1 "top -b -n 1 | head -n 16"

也可以使用命令:

代码语言:javascript
代码运行次数:0
复制
top -b -n 1 | head -n 20 | awk 'NR>1 {print $1, $2, $9, $10, $12}'
  • 定位进程中高CPU占用的线程 在前面的方法中使用top命令定位到进程后,需要再定义进程中具体的线程,可以使用命令,其中pid就是前面定位到的进程ID
代码语言:javascript
代码运行次数:0
复制
top -Hp pid

比如前面定位到2540这个进程,监控一下进程下面具体的线程,发现线程2568、2569比较占cpu

嫌弃不够直观,直接打印一下前10,2540是进程ID

代码语言:javascript
代码运行次数:0
复制
ps -mp 2540 -o THREAD,tid | gawk 'NR!=1 && NR!=2 { printf "%s %x\n",$2,$8 }' | sort -rn | head -10
  • 将线程ID转换为十六进制 将前面的线程ID转为十六进制
代码语言:javascript
代码运行次数:0
复制
printf "%x\n" 2569
  • 获取线程堆栈信息
代码语言:javascript
代码运行次数:0
复制
jstack 2540 | grep "a09" -A 30

通过线程堆栈信息就可以定位到具体的代码

找到具体问题代码,原来写了个while(true)循环

  • 监控GC情况 当然生产环境的问题不一定这么容易定位,所以需要监控gc情况,使用jstat -gcutil <进程号>命令查看GC持续变化情况,如果发现Full GC次数过多,可能需要进一步分析内存使用情况
  • 导出堆内存文件 如果出现频繁Full GC的问题,使用命令导出堆内存文件:
代码语言:javascript
代码运行次数:0
复制
jmap -dump:format=b,file=heapdump.hprof pid
  • 分析堆内存文件 使用MAT工具打开导出的heapdump.hprof文件,分析内存泄漏和内存分配情况,找出占用大量内存的对象
  • 优化代码

根据MAT的分析结果,定位代码中的问题,优化代码

  • 监控生产环境

重新部署修改后的代码,并使用top命令监控CPU占用情况,确保问题得到解决,同时可以部署一下监控平台,比如zabbix等对生产环境服务器进行监控,及时发现问题

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 场景描述
  • 问题模拟
  • 问题处理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档