图文简述在多故障场景下双活数据中心的应对

最近有个集团级的云项目处于实施过程中,客户对数据备份、应用双活视为同一个事物,要求我方将原秒级数据备份升级为秒级应用双活。实际问题,备份与双活是不同的两个概念。以下我们用图文方式简述双活与数据备份的区别。

一、数据备份:一般数据备份采用定期全量备份(如七天),更短周期数据增量备份(如一天或秒级)的方式。具体的实现原理有多种:硬盘分区级的物理备份(硬盘虚机快照等)、文件级的物理备份(Veritas等)、数据库级的逻辑备份(MysqlDump、Oracle DataGuard等)。

数据备份达不到应用双活的要求,因为仅实现了数据的备份,应用实际是单部署。一旦主应用服务器中断,实际是无备应用服务器接替服务器的。因此通过数据备份来启动备用的数据中心服务,一般切换周期至少在几小时以上。

二、应用双活:

1、在两个数据中心边界部署GSLB,在单数据中心全部中断服务情况下,秒级切换。GSLB代替用户原来的Local DNS,将用户所有域名迁移到GSLB设备,由GSLB设备完成普通或者智能DNS解析。当生产中心GSLB不响应DNS时,会自动递归查询至灾备中心的GSLB,从而由灾备中心GSLB应答DNS请求,整体切换时间可达秒级。要求应用基于DNS。

2、在单数据中心内部署两台SLB,当单SLB中断或某单服务器中断时,仍能正常工作。由于SLB双机部署,备机实时备份会话,当SLB-1机时,流量瞬间切换SLB-2接管,业务无影响,切换时间为秒级。

3、在单数据中心服务器全部中断时,通过GSLB、数据中心间二层波层链路,仍能正常工作

新用户:GSLB实时模拟用户对SLB VIP做健康监测,当获知服务器全部宕机的情况时,会立即更新DNS响应策略;此时,新用户发起的DNS请求都会得到灾备中心的VIP-B,从而实现双中心秒级业务切换。

老用户:由于用户访问的流程是先向GSLB请求VIP,当获取一个VIP后,就会直接通过VIP访问,在DNS失效前不再请求新的DNS。由此,在生产中心服务器宕机的短时间内,会存在一个情况,即:GSLB此时通过健康检测,能够立即获知生产中心服务器集群不可用,且会立即更新DNS相应策略(相应灾备中心VIP-B);但仍然有用户暂未更新VIP,此时仍然会访问生产中心VIP-A;解决方法是:配置VIP-B作为主中心VIP-A下挂服务器组的备份组,当所有服务器集群不可用时,前来访问的用户流量会被生产中心SLB-1引流至灾备中心SLB-1,以此来保证业务流量不中断,整体切换时间可达秒级。

4、当存储服务器中断时,通过存储仲裁、波分链路,实现存储永不中断。可采用OceanStor V3系列产品,实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。

5、通过SLB支持RHI特性,保证基于IP访问的应用也能享受双活。RHI(Route Health Injection,路由健康注入)技术。该特性通常由SLB设备实现,SLB周期性的检测服务器/虚拟机的存活状态,当检查结果正常时,SLB向骨干网中发布一条该虚机地址的主机路由;当检查结果异常时,撤销该主机路由。另一个数据中心的SLB也发布一条更高Metric的主机路由,从而平常的IP路由只能到主用数据中心。

该特性要求数据中心至运营商大网必须通过BGP、OSPF等动态路由进行路由交换,不能为静态路由。

6、最后,应用双活是很复杂的体系,需要网络、数据中心等多台设备的联动,成本、实施难度很高。

本文分享自微信公众号 - 信息化漫谈(informationwalk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏信息化漫谈

数据备份用DG还是RMAN?

在最近的一个大型项目中,用户提到由我们云提供商进行Oracle数据库的备份、迁移集成工作,是选择用DG、还是RMAN?我们今天来分析一下。

10920
来自专栏小麦苗的DB宝专栏

IDC云灾备白皮书:云灾备支持未来业务持续性新需求

科技的快速发展正在推动产业格局演进,新一轮产业变革的核心是信息网络技术的应用,互联网、智能终端等新一代的信息技术的发展,将带来诸多产业的变革和创新。IDC认为,...

17720
来自专栏小手冰凉

Redis 数据库详解及参数调优

Redis数据库是一个非关系型数据库,和oracle、mysql、sql server等关系型数据库不是同一类型。NoSQL是非关系型数据库的总称,主流的NoS...

17230
来自专栏AI科技大本营的专栏

“不给钱就删库”的勒索病毒, 程序员该如何防护?

近期一家名为ProPublica 的外媒批露了两家号称专门提供勒索病毒数据恢复解决方案的公司,竟然背地里在偷偷地给黑客支付赎金,欺骗寻求数据恢复的用户。

14230
来自专栏云计算技术专栏

CDB关于记录binlog内容浅析

有客户咨询到update一条没有记录的数据是否会记录到binlog文件中,按照不同的binlog_format记录的方式有所不同,STATEMENT记录完整的S...

20700
来自专栏授客的专栏

SQLServer 触发器

update触发器 当更新表中某列、多列时触发,自动执行触发器所定义的SQL语句

11920
来自专栏咖啡拿铁

再有人问你分布式事务,把这篇扔给他

不知道你是否遇到过这样的情况,去小卖铺买东西,付了钱,但是店主因为处理了一些其他事,居然忘记你付了钱,又叫你重新付。又或者在网上购物明明已经扣款,但是却告诉我没...

12340
来自专栏小麦苗的DB宝专栏

【DB笔试面试503】常见容灾建设模式有哪些?

当前,市场上常见的容灾模式可分为本地容灾、同城容灾、异地容灾、双活数据中心、两地三中心几种。

8220
来自专栏姚红专栏

key-value数据库-Redis

Redis是完全开源的ANSI C语言编写、遵守BSD协议,高性能的key-value数据库。

12820

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励