前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KubeSphere DevOps 3.0 流水线运维指南

KubeSphere DevOps 3.0 流水线运维指南

作者头像
jwangkun
发布2021-12-23 16:43:09
1.2K0
发布2021-12-23 16:43:09
举报
文章被收录于专栏:John Wong's BlogJohn Wong's Blog

本篇主要介绍如何运维 DevOps 流水线,怎么解决一些常见的问题。问题主要分为两大类,一类是 Kubernetes 相关的,具有一定通用性;另一类是与业务相关,需要对领域有所了解,解决问题时才能事半功倍。文档内容,会不断滚动更新。

1. Kubernetes 问题排查

1.1 基本的创建流程

如上图所示,是用户创建一个 Deployment 的简单流程。主要分为以下步骤:

  1. kubectl 根据用户输入的命令,填充相关字段,将 deployment/pvc 对象发送给 kube-apiserver
  2. kube-apiserver 会有一系列的权限/准入控制,最终将数据序列化存储在 etcd 中
  3. kube-controller-manager 包含大量的控制器,这些控制器会生成 replicaset/pod 对象存储在 etcd 中。pvc 需要绑定到 pv 上,如果没有满足要求的 pv,则通过 Storage Class 动态创建一个 pv 。
  4. kube-sheduler 负责给 pod 选择运行的 node 节点,然后将 NodeName 字段写入 pod 对象中。
  5. kubelet 发现当前 node 节点有待创建的 pod,然后开始调用 CRI 接口去管理 pod 的生命周期。如果有 pvc,还需要将远程磁盘挂载到宿主机目录。

了解基本的创建流程,有利于排查各种可能的故障。故障可以理解为集群生命周期中的一个状态,而创建是整个生命周期的起点。同时,重置、重启都是非常快速地解决问题的方法,都涉及创建。

1.2 解决集群故障的思路

如上图所示,是我的集群故障修复思路。主要分为以下步骤:

  1. kubectl get 检查 node、pod 等资源是否符合预期
  2. kubectl describe 查看 Kubernetes 中的事件信息,包括 kube-sheduler 的调度、拉取镜像、启动是否成功等。通常能解决大部分的问题。
  3. kubectl logs 查看负载的日志。当 pod 处于 running,但是又无法正常提供服务时,logs 信息能够给出有用的提示。有时无法查看 pod 中容器的日志,那么需要去 pod 所在的节点查看 docker 的日志。journal 通过 -u 参数指定服务,通过 -f 查看滚动的最新日志,也十分有用。
  4. 如果上面两种思路还不能解决问题,那么恭喜你,又有机会提高自己了。检查底层服务,也就是检查集群的基础环境,包括磁盘、允许的协议、允许的端口、防火墙、网络等。最终能不能解决,取决于你的积累和检索问题答案的能力。

1.3 必要的检查事项

这里列举一些必要的检查事项,可以辅助排查问题。

  • node 负载

node 负载过高时,有可能导致节点 NotReady。

  • node 磁盘

磁盘包括两部分,大小和 inode。

  • swap、firewall

安装集群时的配置,在重启机器之后,可能会失效。

  • 跨 node 的 pod 通信

跨节点通信异常时,会导致服务无法访问。

  • node 节点上 kubelet、docker 的状态

systemctl status kubeletsystemctl status docker 查看组件的状态。

  • 检查 kubelet 、docker 的配置

ps aux|grep kubeletdocker info 查看相关配置是否符合预期。

2. 安装问题

如上图所示,是 installer 在执行安装 DevOps 时的依赖关系。DevOps 主要有两个核心组件 S2I 和 Jenkins 。S2I 依赖于 minio 存储文件,Jenkins 依赖于 uc 提供插件下载、依赖 openldap 打通账户体系。

安装时,比较常见的是 minio 安装失败,导致 DevOps 无法继续安装。而 minio 安装失败通常又是存储和网络导致。

3. Jenkins 运维问题

3.1 修改默认配置导致异常

DevOps 允许用户自定义配置,但 Jenkins /configureSecurity/ 页面中鉴权和 CSRF Protection 不要修改。

修改上图,红色框中的内容,会导致流水线无法使用。

3.2 大量多分支流水线占满磁盘空间

多分支流水线扫描时,会将仓库拉取到 /var/jenkins_home/cache 中,查找 jenkinsfile 文件。

如果大量实践多分支流水线扫描,请将 Jenkins 的 pv 设置大一些,50 GB 以上。

3.3 Lightweight 问题导致并发流水线冲突

具体可以参考文档: Jenkins 中 Lightweight 拉取代码问题分析

3.4 多节点集群,无法创建流水线

节点之间通信问题,可以将 ks-controller-manager 和 ks-jenkins 调度到一个节点进行验证。

如果能够创建成功,那么 Pod 的跨节点通信有问题。

3.5 流水线并发数量少。

调整 ks-jenkins 的 cpu 和 memory 限制,还有 Xms、Xmx 值。

下一篇: KubeSphere3.0 多集群联邦→

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Kubernetes 问题排查
    • 1.1 基本的创建流程
      • 1.2 解决集群故障的思路
        • 1.3 必要的检查事项
        • 2. 安装问题
        • 3. Jenkins 运维问题
          • 3.1 修改默认配置导致异常
            • 3.2 大量多分支流水线占满磁盘空间
              • 3.3 Lightweight 问题导致并发流水线冲突
                • 3.4 多节点集群,无法创建流水线
                  • 3.5 流水线并发数量少。
                  相关产品与服务
                  容器镜像服务
                  容器镜像服务(Tencent Container Registry,TCR)为您提供安全独享、高性能的容器镜像托管分发服务。您可同时在全球多个地域创建独享实例,以实现容器镜像的就近拉取,降低拉取时间,节约带宽成本。TCR 提供细颗粒度的权限管理及访问控制,保障您的数据安全。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档