前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >kubernetes-18:kubelet无法启动的终极解决方式(非生产)

kubernetes-18:kubelet无法启动的终极解决方式(非生产)

作者头像
千里行走
发布2021-12-13 14:19:15
11.4K0
发布2021-12-13 14:19:15
举报
文章被收录于专栏:千里行走千里行走

kubernetes集群很久没看了,发现集群挂掉,无法启动,报错:

The connection to the server 172.26.237.196:6443 was refused - did you specify the right host or port?

查看kubelet是stop状态:

systemctl status kubelet

并且重启失败:systemctl restart kubelet

查看系统日志中关于kubelet的部分:

journalctl -fu kubelet

可以看到kubelet在不断重启(因为在daemon-reload的范围之内,stop后会自动重启)。

没有什么有用信息,手动启动kubelet看一下日志:

/usr/bin/kubelet

主要有两个错误:

Observed a panic: "invalid memory address or nil pointer dereference" (runtime error: invalid memory address or nil pointer dereference)

orphaned pod "0f660127-21c3-461d-b1a7-fc12f2dcafe7" found, but volume paths are still present on disk : There were a total of 4 errors similar to this. Turn up verbosity to see them

github有一个issue:

kubelet: Observed a panic: "invalid memory address or nil pointer dereference"

https://github.com/kubernetes/ingress-nginx/issues/5219

但是没有提供明确的解决方式。

由于是个人机器,不想花费太多时间,所以采用最直接的方式,直接重置集群后在init。

这也是我强烈不建议生产使用自建kubernetes集群,99%的公司承受不了这个成本。

kubeadm reset

重新初始化集群:

kubeadm init --ignore-preflight-errors='NumCPU' --kubernetes-version v1.19.3 --pod-network-cidr=10.244.0.0/16

记住下述命令,按需执行:

To start using your cluster, you need to run the following as a regular user:

要让集群work,需要执行:

代码语言:javascript
复制
 mkdir -p $HOME/.kube
 sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown (id -u):(id -g) 
You should now deploy a pod network to the cluster.
Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:
 https://kubernetes.io/docs/concepts/cluster-administration/addons/
Then you can join any number of worker nodes by running the following on each as root:
kubeadm join 172.26.237.196:6443 --token loe9wq.rt1w12hyeaantw6z \
 --discovery-token-ca-cert-hash sha256:5544027d81f4580cbab5f8b6318c6719470263338e7278b13c3e857cfa36ecf8

但是发现集群是ready,但是coredns无法创建:

describe coredns pod:

可以看到是网络问题。

老集群和新集群的网络配置发生了混乱,kubeadm reset重置后将相关网络配置都删除:

代码语言:javascript
复制
kubeadm reset
systemctl stop kubelet
systemctl stop docker
rm -rf /var/lib/cni/ /var/lib/kubelet/* /etc/cni/
ifconfig cni0 down
ifconfig flannel.1 down
ifconfig docker0 down
ip link delete cni0
ip link delete flannel.1
systemctl start docker

然后顺次执行:

代码语言:javascript
复制
kubeadm init --ignore-preflight-errors='NumCPU' --kubernetes-version v1.19.3 --pod-network-cidr=10.244.0.0/16
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown (id -u):(id -g) 
kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml

可能coredns上pending状态:

descirbe pod coredns:

这是因为删除了集群的配置,需要执行下允许master调度pod的命令:

kubectl taint node future node-role.kubernetes.io/master:NoSchedule-

集群恢复。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 千里行走 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档