Linux服务器CPU和内存占用不高但负载高的问题排查指南

编程小白狼

发布于 2025-12-21 08:16:44

1.6K0

引言：令人困惑的“负载悖论”

在Linux服务器运维中，我们常常会遇到一个看似矛盾的现象：top命令显示CPU使用率并不高，内存也有充足余量，但uptime或top显示的负载平均值（load average）却居高不下。这种“负载悖论”让许多运维人员感到困惑。本文将从底层原理出发，系统性地分析并解决这一问题。

一、理解负载平均值（Load Average）的真正含义

1.1 负载不等于CPU使用率

首先，我们必须明确一个关键概念：系统负载（Load Average）≠ CPU使用率。

CPU使用率：衡量CPU时间片的占用比例
系统负载：单位时间内，系统中处于可运行状态和不可中断状态的平均进程数

1.2 负载的三个数值含义

$ uptime
 10:30:00 up 15 days,  1:23,  2 users,  load average: 1.25, 0.98, 1.05

三个数值分别代表：

1分钟平均负载：1.25
5分钟平均负载：0.98
15分钟平均负载：1.05

关键阈值：对于单核CPU，负载>1表示有进程在等待；对于N核CPU，负载>N表示有进程在等待。

二、负载高的常见原因分析

2.1 I/O等待（最常见原因）

当进程因等待磁盘I/O而进入不可中断睡眠状态（D状态）时，会导致负载升高，但CPU使用率不高。

# 使用top命令观察wa指标
$ top
%Cpu(s):  5.6 us,  2.1 sy,  0.0 ni, 88.2 id,  4.1 wa,  0.0 hi,  0.0 si,  0.0 st

wa (I/O wait)：CPU等待I/O完成的时间百分比
wa > 1% 可能表明I/O存在瓶颈
wa > 5% 通常表示明显的I/O问题

2.2 进程/线程竞争

大量进程或线程竞争有限资源，导致上下文切换频繁。

# 查看上下文切换情况
$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 12 2    0     58432  24560 1856420    0    0  1256   230 12345 56789 8  4 88 0 0

关注：

r (running)：运行队列长度，如果持续大于CPU核心数，表示CPU繁忙
b (blocked)：等待I/O的进程数
cs (context switch)：上下文切换次数，过高表示进程切换开销大

2.3 锁竞争

应用程序内部或内核锁竞争导致进程等待。

# 检查内核锁状态
$ cat /proc/lock_stat

2.4 虚拟化环境问题

在虚拟机中，负载可能因宿主机资源竞争而升高。

# 检查steal time（仅虚拟机）
$ top
%Cpu(s):  5.6 us,  2.1 sy,  0.0 ni, 88.2 id,  4.1 wa,  0.0 hi,  0.0 si,  0.0 st

st (steal time)：被虚拟化hypervisor"偷走"的CPU时间，高值表示宿主机过载

三、系统化排查步骤

步骤1：确认负载情况

# 查看负载详情
$ uptime
$ w

# 查看CPU核心数
$ nproc
$ grep -c 'model name' /proc/cpuinfo

# 计算"负载/核心数"比例
$ echo "scale=2; $(cat /proc/loadavg | awk '{print $1}') / $(nproc)" | bc

步骤2：分析进程状态分布

# 使用top查看进程状态
$ top -b -n 1 | head -20

# 或使用htop（如果已安装）
$ htop

# 查看各状态进程数量
$ ps -eLf | awk '{print $10}' | sort | uniq -c | sort -rn

重点关注：

R (Running)：正在运行
D (Uninterruptible Sleep)：不可中断睡眠（通常是I/O等待）
S (Interruptible Sleep)：可中断睡眠

步骤3：检查I/O性能

# 使用iostat查看磁盘I/O
$ iostat -x 1 5
Device            r/s     w/s     rkB/s     wkB/s   await r_await w_await aqu-sz %util
vda             25.50    7.00   2048.00    560.00    2.50    1.20    6.50   0.05   1.30

# 使用iotop查看进程级I/O
$ iotop -o

# 检查是否有大量磁盘写操作
$ vmstat 1 5

关键指标：

%util：设备利用率，接近100%表示饱和
await：I/O平均等待时间（毫秒）
aqu-sz：平均请求队列长度

步骤4：分析系统调用和中断

# 使用pidstat查看进程I/O
$ pidstat -d 1

# 使用sar查看历史I/O
$ sar -d -p 1 5

# 查看系统调用统计
$ pidstat -w 1

# 检查软中断分布
$ watch -n 1 'cat /proc/softirqs | awk "{print \$1,\$2,\$3,\$4,\$5,\$6,\$7,\$8,\$9}"'

步骤5：内存交换分析

# 检查swap使用情况
$ free -h
$ vmstat 1 5

# 查看swap交换活动
$ sar -W 1 5

# 按进程查看swap使用
$ for file in /proc/*/status ; do awk '/VmSwap|Name/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 2 -n -r | head

步骤6：网络I/O分析

# 检查网络连接数
$ ss -s

# 查看网络队列
$ netstat -s | grep "listen queue"

# 使用nethogs查看进程网络使用
$ nethogs

步骤7：应用层分析

# 查看Java应用（如果有）
$ jstack <pid> > thread_dump.txt

# 分析线程状态
$ grep java.lang.Thread.State thread_dump.txt | sort | uniq -c

# 查看MySQL锁（如果适用）
$ mysql -e "SHOW ENGINE INNODB STATUS\G" | grep -A 30 "LATEST DETECTED DEADLOCK"

四、典型案例分析

案例1：数据库查询导致I/O等待

现象：MySQL服务器负载高达15（8核CPU），但CPU使用率仅30%。

排查：

# 发现大量D状态进程
$ ps aux | awk '$8=="D" {print $0}'

# iostat显示磁盘util接近100%
$ iostat -x 1

# 通过iotop定位到mysqld进程大量读
$ iotop -o -b -n 3

解决：优化慢查询，添加合适索引，考虑增加内存减少磁盘I/O。

案例2：日志写入阻塞

现象：应用服务器负载周期性飙升。

排查：

# 发现大量进程在D状态
$ while true; do date; ps auxf | awk '{if($8=="D") print $0}' | wc -l; sleep 1; done

# 跟踪系统调用
$ strace -p <pid> -T -e trace=file

解决：异步写日志，使用更快的存储，或调整日志级别。

案例3：虚拟化环境资源竞争

现象：虚拟机负载高但CPU使用率低，st指标高。

解决：联系云服务商，迁移到负载较低的物理宿主机，或调整虚拟机配置。

五、预防与优化建议

5.1 监控配置

# 使用sysstat收集历史数据
$ sar -q 1 10  # 查看负载历史

# 配置监控告警
# 当负载持续高于CPU核心数的2倍时告警

5.2 系统调优

# 调整I/O调度器（针对SSD）
$ echo 'deadline' > /sys/block/sda/queue/scheduler

# 调整虚拟内存参数
$ sysctl -w vm.dirty_ratio=10
$ sysctl -w vm.dirty_background_ratio=5

# 调整文件描述符限制
$ ulimit -n 65535

5.3 应用优化

异步处理：将同步I/O改为异步
批量操作：减少小文件读写
缓存策略：合理使用内存缓存
连接池：数据库连接复用
索引优化：数据库查询优化

六、实用脚本：一键负载排查

#!/bin/bash
# load_investigate.sh

echo "======= 系统负载排查工具 ======="
echo "检查时间: $(date)"
echo ""

echo "1. 系统基本信息"
echo "--------------------------------"
echo "主机名: $(hostname)"
echo "运行时间: $(uptime)"
echo "CPU核心数: $(nproc)"
echo "内存总量: $(free -h | awk '/Mem:/ {print $2}')"
echo ""

echo "2. 当前负载情况"
echo "--------------------------------"
load1=$(cat /proc/loadavg | awk '{print $1}')
cores=$(nproc)
load_ratio=$(echo "scale=2; $load1 / $cores" | bc)
echo "1分钟负载: $load1"
echo "CPU核心数: $cores"
echo "负载/核心比: $load_ratio"
echo ""

if [ $(echo "$load_ratio > 1.5" | bc) -eq 1 ]; then
  echo "⚠️  警告：负载偏高！"
fi
echo ""

echo "3. 进程状态统计"
echo "--------------------------------"
ps -eLf | awk '{print $10}' | sort | uniq -c | sort -rn
echo ""

echo "4. CPU使用情况"
echo "--------------------------------"
top -b -n1 | grep "Cpu(s)"
echo ""

echo "5. I/O等待分析"
echo "--------------------------------"
iostat -x 1 2 | tail -n +4
echo ""

echo "6. 内存和Swap"
echo "--------------------------------"
vmstat 1 3
echo ""

echo "7. 运行队列长度"
echo "--------------------------------"
sar -q 1 3