恢复管理

最近更新时间:2024-07-03 17:16:01

我的收藏

操作场景

腾讯云容器服务 TKE 备份中心为业务应用的备份和恢复提供了产品化解决方案,本文介绍如何针对已经创建了备份任务的目标集群进行恢复操作。

前提条件

源集群中已经创建了备份任务。
说明:
假设您计划将A集群备份的业务恢复至B集群,为方便理解,此时A集群称为源集群,B集群称为恢复集群。

操作限制

1. 跨集群备份恢复能力要求目标集群中安装的组件版本在 1.1.0及以上,建议您及时更新。
2. 当前仅支持 kubernetes 资源对象的恢复,不支持云硬盘 CBS、负载均衡 CLB 等云资源的恢复。

操作步骤

创建恢复任务

2. 备份中心 > 恢复管理中选择恢复集群,单击创建恢复任务
3. 创建恢复任务页面,依次填写恢复信息,如下图所示:



相关字段介绍如下:
任务名称:请遵循控制台的提示校验规则填写恢复任务的名称。
备份仓库:选择已经创建好的备份仓库,需要根据仓库过滤出源集群的备份数据。
选择备份:选择待恢复的备份数据,支持选择当前或其他集群(即源集群)创建的备份任务作为恢复依据。
恢复命名空间:用来恢复在源集群备份数据命名空间下找到的相关应用。
所有命名空间:恢复在备份数据中找到的所有命名空间下的资源对象,您可通过“排除”选项快速过滤。
指定命名空间:从备份数据中选择特定命名空间恢复资源。
冲突处理:
不覆盖(推荐):若恢复集群的命名空间中存在同名的备份资源时,则当前恢复任务不会覆盖已有资源。
更新:若恢复集群的命名空间中存在同名的备份资源时,则当前恢复任务会尝试对已有资源更新覆盖。
4. 单击确定,创建恢复任务资源 Restore 并执行恢复操作。
说明:
恢复任务无法保证100%成功。
删除备份任务不会产生其他影响,也不会删除 COS 中存储的备份数据,只会从恢复列表中移除恢复操作的记录。

查看恢复状态

状态
描述
初始化中
创建 Restore 资源对象。
执行中
执行恢复任务。
完成
恢复操作已完成。
部分失败
恢复出现部分资源对象成功、部分失败情况,可在控制台通过查看 YAML 中的 status 字段获取成功的对象数量,失败的原因等。
失败
恢复执行失败,可在控制台或通过 YAML 的 status 字段查看失败原因。

跨集群备份恢复说明

1. 恢复操作时,源集群和恢复集群的网络模式(如VPC-CNI、GR)需保持一致。
2. 暂不支持恢复集群中的云存储资源,如 CBS/CFS/COS,涉及存储相关的 Pod 可能会由于找不到存储资源而 Pending。
3. 如果将业务从独立集群恢复至托管集群,可能会由于部分系统组件部署模式的差异而造成恢复任务失败。为提高恢复成功率,建议您在恢复时优先选择“指定命名空间”进行少量多次操作。
4. kubernetes 不同版本之间会存在不兼容的变更(如参数废弃、apiserver 版本变更),为提高恢复成功率,恢复集群的 Kubernetes 版本与源集群尽量保持相同或相邻大版本,如源集群1.18可恢复至目标集群1.18/1.20。
5. 建议在执行恢复动作前预先检查恢复集群的资源情况,资源不足时可能会造成 Pod Pending。
6. 源集群和目标集群不在相同地域下需确保网络联通性,否则会造成镜像拉取失败造成 Pod Pending。
7. 若您的 Service 资源绑定的 CLB 开启了删除保护(即 CLB 没有随 Service 资源一同被删除),在 Service 资源恢复时可复用原有的 CLB 实现业务恢复。