在上一期《数据掘金者》中,主要介绍的是有别于传统日志的腾讯专有云日志平台。本期给大家带来是专有云中不可或缺的保险机制——容灾管理系统。
容灾是指在相隔较远的异地(不同地域或者不同可用区),建立两套或多套功能相同的 IT 系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
腾讯专有云 Tencent TCE(Tencent Cloud Enterprise)作为基于腾讯云成熟产品体系的企业级专有云平台,满足金融、政企等客户对于容灾高可用能力要求,提供同城容灾(不同可用区)和异地(不同地域)容灾方案。
容灾的关键技术指标
系统容灾能力标准
我国的国家标准《GB20988-2007-T 信息安全技术信息系统灾难恢复规范》对容灾数据中心根据 RPO 与 RTO 两项指标分成了6个相应的等级,如下所示:
容灾等级 | RTO | RPO |
---|---|---|
第1级 | 2天以上 | 1天至7天 |
第2级 | 24小时以上 | 1天至7天 |
第3级 | 12小时以上 | 数小时至1天 |
第4级 | 数小时至2天 | 数小时至1天 |
第5级 | 数分钟至2天 | 0至30分钟 |
第6级 | 数分钟 | 0 |
为什么需要容灾管理系统
容灾是一个系统工程,不仅仅跟云平台和产品本身的容灾能力有关,还跟实际部署形态、配置、运维人员技能等强相关。这就是容灾演练的意义所在。
容灾管理系统的功能
容灾管理系统(DRMS)是为了在AZ级故障发生时,快速实现容灾切换,尽可能地降低 RTO,而开发出的白屏化切换工具。DRMS 有独立的权限系统和域名,即使 Tencent TCE 云平台不可用也不受影响,提供 Tencent TCE整个云平台和产品的容灾状态监控、故障切换能力。
容灾监控
容灾演练
容灾演练支持演练的故障场景包括 MAZ 隔离、SAZ 隔离和 MAZ&SAZ 脑裂三种场景。演练过程分为故障切换演练和故障恢复回切演练两个大的阶段。
容灾应急预案
容灾应急预案是基于故障场景,预先在系统内置的故障切换方案,当真实灾难发生时,登录 DRMS 选择对应的应急预案,进行快速容灾故障处理。
结语
容灾是一项系统工程,需要容灾管理系统(DRMS)和云平台配合提升,才能有效提升系统的容灾能力,提升 RTO/RPO 指标。容灾管理系统(DRMS)将继续完善同城容灾、异地容灾等场景容灾巡检、快速切换能力,提升 Tencent TCE 的容灾能力。
感谢本期作者曾玮给我们带来的精彩解说,喜欢的朋友们可以点一下关注,咱们下期见~
-【END】-
没看够?下面还有!
往期 · 推荐