首页
学习
活动
专区
工具
TVP
发布

云端容灾演练,鱼和熊掌可兼得

在数字化进程不断加快的今天,一个优秀的组织或企业都有一套优秀的灾备系统,而一套优秀的灾备系统一定也有一个与之匹配的灾备演练机制。

两千多年前,有个国王因为拿灾备演练当成儿戏,最后不仅丢了江山,还丢了性命。这个故事叫烽火戏诸侯。

简单来说,灾备演练就是模拟一套与真实灾备系统类似的模拟环境,进行灾备业务的恢复、接管等操作,以此来检验灾备系统的有效性。所以,灾难场景不同、灾备业务复杂度不同,那么演练的技术过程与周期也不相同。

具体的演练包括:系统更新、调整,原有的灾难恢复预案是否仍然有效;灾备系统是否需要进行有效的更新;系统切换流程、步骤是否有遗漏和错误;灾备系统的切换时间是否可以满足业务的恢复需要等等。常见的三种灾备演练方式包括:

1)、桌面演练

桌面演练也叫“沙盘推演”,是最基础的灾备演练方式。通过对初始灾难恢复预案的一个理论验证,进而测试急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。因为是一种理论性演练,所以只需做好若干方案假设即可,工作量小,易于实施,可以根据实际需求灵活开展,并可以模拟多个场景。

2)、模拟演练

相比于桌面演练的“纸上谈兵”,模拟演练则更近一步接近实际演练。它以往往以桌面演练的可能结果为基础,由IT部门与相关业务部门参加模拟演练,采用模拟数据和模拟业务系统运行演练。模拟演练的过程高度接近真实灾难发生时的处理过程,通过演练可以检验灾备系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。

模拟演练由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高,同时也需要投入一定的成本。

3)、实战演练

实战演练需要灾备中心真正接替生产运行一段时间,是在具体设定的灾难场景下,将业务切换到灾备中心及业务恢复环境,并在完成数据、应用及业务恢复后由灾备系统提供对内对外的业务服务,原来的生产环境可以进行必要的系统维护或者为灾备环境提供备份支持。

作为灾备演练的最高的阶段,实战演练的场景最为真实,可以真实发现潜在问题并进一步完善灾备系统,但随之而来的就是演练成本的提高以及对正常业务的影响较大,所以这种演练方式只会在特定的情况下予以使用。

不管是哪种演练,都会存在很多挑战,这时,关键是要获得高管层的理解和支持,使其理解并支持演练的实施执行,进而能够发现问题并改进相关容灾计划,避免演练沦为流于形式的表演。

验证已建成灾备系统的可用性、有效性,通过演练结果来修正、补充、完善灾备恢复预案并为灾备系统的升级建设提供理论依据及数据指标,考验演练中团队的决策与指挥能力,从而使企业在灾备建设中有据可依,保证建成的灾备系统能充分实现建设的目的、达到建设的目标。这就是灾备演练的意义所在。

成本与效果看似是容灾演练中不可调和的矛盾,鱼和熊掌似乎不可兼得。

实际未必。

随着云计算的兴起,相比于传统的物理环境,云环境的成本优势更为明显,尤其是前期的一次投入更低。以英方基于公有云的灾备演练为例,可以实现在不影响生产主机与灾备主机正常运行的情况下,通过启用另外一份临时资源用于做演练操作。

具体过程包括,生产中心到公有云灾备中心的数据复制、接管服务由英方灾备管理软件提供,公有云针对云主机有快照克隆功能,而英方管理控制台调用该接口,再生产一份相同的主机并下发到演练环境中。

整个演练过程对业务运行零干扰,通过英方管理控制台的容灾演练按钮,即可以一键将系统与应用进行恢复,并在该演练环境中模拟业务切换。优势在于:

1.演练单独使用临时资源,不影响生产与灾备系统

2.基于公有云方便资源创建与回收

3.图形化操作简便

云上灾备演练其实是通过云主机更好的利用备份数据的良好实践。很多时候灾难场景不同、灾备技术复杂度不同,演练的技术过程与周期也不尽相同。但随着云上原生数据和应用的出现,基于云主机层面的容灾演练将会随着云计算时代的到来得到更多的应用。

当然,不管是何种场景下的容灾演练,都需切记,演练不是儿戏,需谨慎对待。

IT千万条,灾备第一条,演练不规范,用户两行泪。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191009A0JJKO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券