前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Ubuntu1804下k8s-CoreDNS占CPU高问题排查

Ubuntu1804下k8s-CoreDNS占CPU高问题排查

作者头像
yaohong
发布2021-06-10 16:47:55
1.2K0
发布2021-06-10 16:47:55
举报
文章被收录于专栏:姚红专栏

1.背景:

最近在ubuntu804上适配k8s的时候,部署到业务pod的时候,出现了服务器卡死,top查看发现负载很高,进行CPU排序发现如下信息,可知是CoreDNS服务导致。

2. 分析排查:

1.分析CoreDNS问题

根据coredns状态是CrashLoopBackOff

代码语言:javascript
复制
# kubectl get pod -n kube-system -l k8s-app=kube-dns
NAME                      READY   STATUS             RESTARTS   AGE
coredns-76b74f549-99331   0/1     CrashLoopBackOff   5          4m45s

查看coredns对应的pod日志有如下错误:

代码语言:javascript
复制
# kubectl -n kube-system logs coredns-76b74f549-99bxd
.:53
2021/06/03 06:20:28 [INFO] CoreDNS-1.1.3
2021/06/03 06:20:28 [INFO] linux/amd64, go1.10.1, b0fd575c
2021/06/03 06:20:28 [INFO] plugin/reload: Running configuration MD5 = d23dc615bc772457a380ba5d5c2690b7
CoreDNS-1.1.3
[FATAL] plugin/loop: Loop (127.0.0.1:60429 -> :53) detected for zone ".", see https://coredns.io/plugins/loop#troubleshooting. Query: "HINFO 6292641803451309721.7599235642583168995."

再根据日志报错,可以获取到如下文档内容:

由以上信息可知:

Kubernetes集群中转发循环的一个常见原因是与主机节点上的本地DNS缓存的交互(例如systemd)。例如,在某些配置中,systemd resolved将把环回地址127.0.0.53作为名称服务器放入/etc/resolv.conf。默认情况下,Kubernetes(通过kubelet)将使用默认dnsPolicy将这个/etc/resolv.conf文件传递给所有pod,使它们无法进行DNS查找(包括CoreDNS pod)。

简而言之:DNS回环了。

出现这个问题的关键原因是ubuntu1804中 /etc/resolv.conf文件默认nameserver为127.0.0.53,所以需要调整kubelet的启动文件中DNS配置文件路径到/run/systemd/resolve/resolv.conf。

ansibel部署的时候kubelet-config.yaml文件可以做如下修改做判断:

代码语言:javascript
复制
{% if ansible_distribution == "Ubuntu" and ansible_distribution_major_version|int > 16 %}
resolvConf: /run/systemd/resolve/resolv.conf
{% else %}
resolvConf: /etc/resolv.conf
{% endif %}

修改kubelet启动文件,再重新部署k8s,问题解决。

代码语言:javascript
复制
root@ubuntu1804:~# kubectl get pod -n kube-system -l k8s-app=kube-dns
NAME                       READY   STATUS    RESTARTS   AGE
coredns-5757945748-mh8mp   1/1     Running   0          23h
coredns-5757945748-p2scc   1/1     Running   0          23h
coredns-5757945748-vfmkz   1/1     Running   0          23h

2.CoreDNS升级

在查看CoreDNS Github的时候,获取到CoreDNS从1.2.1版本开始添加的loop插件用于防止回环问题。

再查看自己正在使用的CoreDNS版本,竟然还为1.1.3。

代码语言:javascript
复制
# kubectl -n kube-system logs -f  coredns-8f9b4c9f5-9rvjq 
.:53
2021/06/03 06:20:28 [INFO] CoreDNS-1.1.3g 

果断升级CoreDNS版本,

到此CoreDNS问题全部解决。

3.参考文档

https://coredns.io/plugins/loop/#troubleshooting

https://kubernetes.io/zh/docs/tasks/administer-cluster/dns-debugging-resolution/

https://github.com/coredns/coredns/tree/v1.2.1/plugin/loop

原文链接:https://cloud.tencent.com/developer/article/1833771

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-06-03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.背景:
  • 2. 分析排查:
    • 1.分析CoreDNS问题
      • 2.CoreDNS升级
        • 3.参考文档
        相关产品与服务
        容器服务
        腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档