背景
Pod 是 Kubernetes 集群中运行的应用程序的最小部署单元。在实际应用场景中,Pod 可能存在容器崩溃、资源不足、Pod 销毁、Pod failure 等故障,导致应用程序无法正常运行。
为了提高容器服务的可靠性和稳定性,需进行 Pod 故障演练。通过演练,可以验证系统在 Pod 故障的情况下是否可以正常运行,提前暴露在此故障场景下的一系列问题,以便于快速有效地解决。
演练实施
步骤一:演练准备
购买容器实例,部署测试服务。若已有可以演练的容器实例,则直接创建演练。
进入 探针管理 页面安装探针。
步骤二:创建演练
1. 登录 云顾问 > 混沌演练控制台,进入演练管理页面,单击新建演练。
![](https://qcloudimg.tencent-cloud.cn/image/document/18530acaeebc2f733329349ca515058a.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/18530acaeebc2f733329349ca515058a.png)
2. 点击跳过,新建空白演练。
![](https://qcloudimg.tencent-cloud.cn/image/document/2ca1922f47226c41b01ff357c59ff60b.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/2ca1922f47226c41b01ff357c59ff60b.png)
3. 实例类型选择容器,实例对象选择标准集群 Pod, 然后添加实例。![](https://qcloudimg.tencent-cloud.cn/image/document/b2e7257c2d0265cc23730e36df1b96e9.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/b2e7257c2d0265cc23730e36df1b96e9.png)
4. 添加故障动作。点击立即添加,选择 Pod 操作。![](https://qcloudimg.tencent-cloud.cn/image/document/a17c8b72c14b0f1a3b825a969579a164.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/a17c8b72c14b0f1a3b825a969579a164.png)
5. 选择故障动作 Pod 删除。![](https://qcloudimg.tencent-cloud.cn/image/document/28525cafcc26306ec7b729892a40a7da.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/28525cafcc26306ec7b729892a40a7da.png)
6. 设置动作参数,点击确定。![](https://qcloudimg.tencent-cloud.cn/image/document/d62391ee21023c87cb598f8783daf91a.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/d62391ee21023c87cb598f8783daf91a.png)
7. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略和监控指标,最后单击提交,完成演练创建。![](https://qcloudimg.tencent-cloud.cn/image/document/7836d92e01d42e038bd99b6585e0bf8b.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/7836d92e01d42e038bd99b6585e0bf8b.png)
步骤三:执行演练
1. 查看故障执行前 Pod 的信息,此处关注 Pod 创建时间和运行时间。![](https://qcloudimg.tencent-cloud.cn/image/document/ff1af231d1032f701ddddce32b5fcf2e.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/ff1af231d1032f701ddddce32b5fcf2e.png)
2. 进入演练详情,单击前往动作组执行。
![](https://qcloudimg.tencent-cloud.cn/image/document/b9e70b143d719e880d9f9f2c08d7b5cf.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/b9e70b143d719e880d9f9f2c08d7b5cf.png)
3. 点击执行,开始演练。![](https://qcloudimg.tencent-cloud.cn/image/document/30bf8aa580fdf9ad9e13277a57d6f3c3.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/30bf8aa580fdf9ad9e13277a57d6f3c3.png)
4. 查看动作执行结果详情。![](https://qcloudimg.tencent-cloud.cn/image/document/f99ccce56dc402cd455473f6e0f0f27c.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/f99ccce56dc402cd455473f6e0f0f27c.png)
5. 查看执行日志,确认执行成功。![](https://qcloudimg.tencent-cloud.cn/image/document/4ace197f0a35d6ec6ca505c71d478418.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/4ace197f0a35d6ec6ca505c71d478418.png)
6. 验证执行效果。查看故障执行后 Pod 的信息。根据 Pod 创建时间和运行时间,可观测到 Pod 是刚创建出来的,也就是说,之前的 Pod 已经被删除,重建了一个新的 Pod。
![](https://qcloudimg.tencent-cloud.cn/image/document/8872445d9a36a90d03cc358d52987cf8.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/8872445d9a36a90d03cc358d52987cf8.png)