容器资源 Pod 操作故障演练案例

最近更新时间:2025-02-12 17:23:42

我的收藏

背景

Pod 是 Kubernetes 集群中运行的应用程序的最小部署单元。在实际应用场景中,Pod 可能会遇到容器崩溃、资源不足、Pod 销毁、Pod failure 等问题,导致应用程序无法正常运行。为了提高容器服务的可靠性和稳定性,需要进行 Pod 故障演练。通过演练,可以验证系统在 Pod 故障情况下的表现,提前暴露并解决潜在问题。

演练步骤

步骤一:演练准备

1. 购买标准集群实例,部署测试服务。如果集群已有运行的节点,可直接使用现有节点进行演练。
2. 进入 探针管理 页面安装探针。

步骤二:创建演练

1. 登录 腾讯云云顾问控制台,选择左侧导航中的混沌演练 > 演练管理
2. 在演练管理页面,单击新建演练。如下图所示:

3. 新建演练 > 经验选择页面,选择跳过,新建空白演练



4. 填写演练信息,单击下一步
5. 进入演练对象配置页面,填写动作组编排信息。其中,资源类型选择容器,资源对象选择标准集群 Pod
6. 在动作组的实例列表中选择添加实例,并在标准集群 Pod 中选择集群 ID 和命名空间。如下图所示:



7. 单击确定。在演练动作中,单击立即添加,添加演练动作。如下图所示:



8. 选择演练动作 Pod 删除,单击下一步。如下图所示:



9. 设置动作参数,完成后单击确定



10. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略监控指标,单击提交,完成演练创建。



步骤三:执行演练

1. 登录 容器服务控制台,选择左侧导航栏中的集群
2. 单击集群名称,进入集群详情页。
3. 在节点管理中,选择节点页签,单击节点名称,进入节点详情页。
4. 查看故障执行前 Pod 的信息,此处关注 Pod 创建时间和运行时间。

5. 登录 云顾问 > 混沌演练控制台,进入演练详情,单击前往动作组执行



6. 单击执行,开始演练。


7. 单击动作卡片,查看动作执行详情。


8. 查看执行日志,确认执行成功。

9. 验证执行效果。在 容器服务控制台,查看故障执行后 Pod 的信息。根据 Pod 创建时间和运行时间,可以观察到 Pod 是刚创建出来的,这意味着之前的 Pod 已经被删除并重建了一个新的 Pod。