文档中心>容器服务>故障处理>节点常见报错与处理

节点常见报错与处理

最近更新时间:2024-03-25 15:41:11

我的收藏

节点异常关键字排障

当使用 TKE 集群服务的节点检查能力时,可能会检查出节点异常,包含建议您进一步排查的关键字,本文档总结了节点检查中出现的关键字、异常现象及对应的检查方式(通过正则表达式匹配内核 / dev / dmesg 日志进行检查),您可以根据本文档登录节点进一步排查异常原因。

节点异常关键字含义及检测方式

关键字
含义
匹配用的正则表达式
OOMKilling
进程 OOM killing
Killed process \\d+ (.+) total-vm:\\d+kB, anon-rss:\\d+kB, file-rss:\\d+kB.*
TaskHung
进程长时间冻结(IO、NFS 等问题)
task [\\S ]+:\\w+ blocked for more than \\w+ seconds\\.
UnregisterNetDevice
网络设备泄露,如存在没有注册的网络设备
unregister_netdevice: waiting for \\w+ to become free. Usage count = \\d+
KernelOops
内核出现空指针
BUG: unable to handle kernel NULL pointer dereference at .*
KernelOops
除0错误
divide error: 0000 [#\\d+] SMP
Ext4Error
Ext4 文件系统故障
EXT4-fs error .*
Ext4Warning
Ext4 文件系统警告
EXT4-fs warning .*
IOError
Buffer 写入设备阻塞
Buffer I/O error .*
MemoryReadError
内存故障
CE memory read error .*
FilesystemIsReadOnly
文件系统只读,无法写入
Remounting filesystem read-only
TCPMemOverFlow
TCP 内存不足
TCP: out of memory -- consider tuning tcp_mem
TCPSkOverFlow
Socket 太多引发
TCP: too many orphaned sockets
NFOverFlow
conntrack 表满
nf_conntrack: table full, dropping packet
ARPOverFlow
arp 表满
\\w+: neighbor table overflow!
BlockIOError
Buffer 写入设备阻塞
Buffer I/O error on device (.+), logical block \\d+
BlockIOError
Blkio 请求阻塞
blk_update_request: I/O error, dev \\w+, sector \\d+
FileOpenLimit
打开文件超过系统上限
VFS: file-max limit \\d+ reached
SlabFreeErr
释放 Slab 错误
cache_from_obj: Wrong slab cache. (.+) but object is from (.+)
MemPageFailed
Page 分配错误
page allocation failure(.) order:[3-5],(.+)
SoftLockUp
CPU 长时间没有调度切换
BUG: soft lockup - CPU#\\d+ stuck for (.+)
SchedInAtomic
占有自旋锁时调用 sleep
BUG: scheduling while atomic:(.+)
RCUStall
CPU RCU 长时间卡顿
INFO: \\w+ self-detected stall on CPU (.+)
PCICardErr
PCI Card 错误,如虚拟设备
Card not present on Slot(.+)