前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >K8S内核故障[内核BUG]

K8S内核故障[内核BUG]

作者头像
院长技术
发布2020-06-16 15:54:06
1.9K0
发布2020-06-16 15:54:06
举报
文章被收录于专栏:院长运维开发院长运维开发

经过测试触发OOM问题

测试:3.10.0-862.3.2.el7.x86_64(内核)

开启7个异常会触发OOM的节点,在一个NODE上,经过测试发现,3.10内核,是并行创建了7个任务,同时触发oom,导致内核锁耗死。测试 2-3分钟内,服务器会死掉,模拟测试连续触发OOM问题直到CPU耗尽。服务器自动重启

kernel: BUG: soft lockup - CPU#4 stuck for 22s! [handler20:1542] 此类也是3.10内核BUG

neihe1.png
neihe1.png

k8s已经无法管理node节点 ,node节点pod节点全挂了

neihe2.png
neihe2.png

调整内核 4.1.19,测试触发OOM问题 开启7个异常会触发OOM的节点,在一个NODE上 测试:4.19.1-1.el7.elrepo.x86_64(内核) 测试发现,4.19内核创建任务,非并向,暂时无法触发内核锁BUG。

neihe3.png
neihe3.png

总结:暂时灰度部分服务器升级内核到4.1.19。后续补充 升级内核操作

neihe4.png
neihe4.png

自定义内核

下面链接可以下载到其他归档版本的

ubuntuhttp://kernel.ubuntu.com/~kernel-ppa/mainline/ RHELhttp://mirror.rc.usf.edu/compute_lock/elrepo/kernel/el7/x86_64/RPMS/ 官方内核库 https://cdn.kernel.org 下面是ml的内核和上面归档内核版本任选其一的安装方法

自选版本内核安装方法

neihe5.png
neihe5.png
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档