前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个小需求,自动重启k8s集群中日志不刷新的POD

一个小需求,自动重启k8s集群中日志不刷新的POD

作者头像
小仙女闯运维
发布2020-09-23 16:04:42
7340
发布2020-09-23 16:04:42
举报

需求

日常工作中,所有项目都不是完美的,笔者就经常遇到这种情况,pod状态是running,但是程序却没有响应。发生这种情况的原因有很多种,有可能是因为k8s健康检查的原因,比如使用ps检查进程;或者是程序内部死循环,但是不退出;再或者网络闪断,程序无法重连等等。

无论什么原因,都会有解决办法,但是优化需要时间,在未完全解决之前,问题不能不解决,于是想到了一个临时方案,因为笔者公司项目日志是直接打印在stdout的,发生了程序无响应的情况,比较简单的一个办法是判断日志输出的时间。基于此,可以简单写一个小脚本,发现日志长时间不输出的时候,重启pod。

思路

使用kubectl logs命令查看最后一条日志输出的时间戳,与服务器时间对比,差值大于阈值,则重启相应POD。当然,这只是一个简单的思路,并不适用于大部分场景,但是适合笔者公司,因为核心项目请求量很大,但凡是超过1分钟日志不刷新,基本可以断定100%出现问题了。

此思路其实也是抛砖引玉,希望能给大家一些灵感,如果有什么更好的办法,也可以与笔者沟通交流。

简单实现

shell比较简单,直接与服务器交互也比较友好,就是用shell来写吧。

!/bin/sh

获取当前UTC时间utc_now=date -u

将时间转换为timestamptimestamp_now=date -d "$utc_now" +%s

function restart_pod() {

for i in `kubectl get pod -n iot|grep PODNAME|awk '{print $1}'`;do 
    for time in `kubectl logs  --tail=1 --timestamps $i -n iot | awk '{print $1}'`;do 
        timestamp_pod=`date -d "$time" +%s` 
        delay=$(($timestamp_now-$timestamp_pod))            echo $i:$delay            if [ "$delay" -ge "30" ];then 
            echo "Pod $i 30S内没有最新日志产生,重启pod!" 
            echo $i                kubectl delete pod $i -n iot --force --grace-period=0 
            curlwxFunc "Pod $i 30S内没有最新日志产生,重启pod!(生产环境)" 
        fi        done    done}function curlwxFunc() { 
JSON='{ 
        "msgtype": "text", 
        "text": { 
            "content": "'$1'" 
        } 
    }' 
curl 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx' \ 
-H 'Content-Type:application/json' \ 
-d "${JSON}" 

}restart_pod 脚本很简单,先查询pod,然后看pod最后一条日志时间,与服务器时间对比,延迟超过30s就重启pod,并且调用企业微信接口发一条通知。

后记

此方法也是治标不治本,治标还需要从源头解决,不过需要时间,再没有解决之前,先用这个小脚本抗一抗吧。也欢迎大家拍砖。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • !/bin/sh
  • 获取当前UTC时间utc_now=date -u
  • 将时间转换为timestamptimestamp_now=date -d "$utc_now" +%s
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档