全方位构建企业数据中心容灾体系

第十期 启迪云解决方案架构师 林文炜

信息系统容灾建设等级

数据中心容灾主要为了在灾难发生时保持业务不中断。那么当灾难发生,用户最关心的是什么呢?下面是国际上通用的容灾系统的评审标准Share 78,可以作为广大用户衡量和选择容灾解决方案的指标:

因此,容灾系统的设计,主要也是围绕这几个用户需求。由于用户投入资金的数量限制,想用少的资金达到第6级容灾级别显然是有难度的,我们设计出的系统也只能是在现有的条件下尽量减少故障历时,尽量多的恢复数据,这也是衡量我们所设计出来的容灾系统质量的指标。实际的容灾系统设计过程中,我们重点关注的是RTO和RPO两个指标。

RPO(Recovery Point Objective):即数据恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。

RTO(Recovery Time Objective):即恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。

RPO针对的是数据丢失,而RTO针对的是服务丢失,RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。

好的容灾系统需要尽量满足用户的需求,但是容灾系统的设计往往受多种条件的制约,如可用的技术、现网状况、用户意志、用户业务等,但到目前为止,起决定性的因素,是容灾建设的成本。

容灾中心建设等级示意图:

容灾架构层级介绍

从信息系统的层级架构来看,容灾系统对于不同层级的保护可以分为数据级容灾和应用级容灾。数据级容灾指的是对生产机的业务数据定期进行异机保存,当生产机的业务数据由于灾难而损失时,待生产机修复之后,可以利用异机保存的数据来恢复业务,这个过程称为数据级容灾。应用级容灾侧重业务完整性,尽可能的保证业务不中断或者可以快速恢复。数据级容灾是应用级容灾的前提,即应用级容灾也需要在异机有一份生产机业务数据的备份,并且当生产机发生灾难时,异机可以利用备份数据快速恢复业务。一般来说,应用级容灾实现较为复杂,成本也较高。

数据级容灾和系统级容灾都是在IT范畴之内,然而对于正常业务而言,仅IT系统的保障还是不够的。有些用户需要构建最高级别的业务级别容灾。业务级容灾的包括很多非IT系统,比如电话、办公地点等。当一场大的灾难发生时,用户原有的办公场所都会受到破坏,用户除了需要原有的数据、原有的应用系统,更需要工作人员在一个备份的工作场所能够正常地开展业务。实际上,业务级容灾还关注业务接入网络的备份,不仅考虑支撑系统的服务提供能力,还考虑服务使用者的接入能力、甚至备份的工作人员。

数据级容灾和应用级容灾的业务框架如下图所示:

企业多数据中心容灾建设思路

通常企业建设多数据中心的思路是:

企业数据中心一般选择在同城50km 范围内再建立备份数据中心,作为主数据中心的备份,通过专线或者上传输设备,对业务数据进行实时复制。

在备份的同时,也可以将部分业务中心转移到备份数据中心上,到达主备数据中心双活状态。

另外考虑到不可抗拒的自然灾害(如地震)对地区城市的毁灭性破坏,建议企业在有能力的情况下,在另外一个距离大于400km 的城市建立灾备中心,用于主备双中心的备份,定时同步生产中心和同城灾备中心的数据。当发生灾难时,尽量保证重要数据得以保持不被破坏,异地灾备中心可以用备份数据进行业务的恢复。

容灾应用类型

常见的容灾应用类型主要有两类:

一类是无状态的应用,通常为前端类应用,如Web服务器等,这类应用通常为多实例运行,前端通过负载均衡器分配访问请求。

另一类是有状态的应用,通常是数据层的服务,另外,应用层的状态通常可通过CMDB、日志系统等实现无状态化。

容灾数据备份关系

数据备份根据主备之间的关系可以分为冷备模式(Cold Standby)、暖备模式(Warm Standby )热备模式(Hot Standby)、双活模式。

冷备模式(Cold Standby):

备份系统未安装或未配置成与主用系统相同或相似的运行环境,应用系统数据没有及时装入备份系统。

缺点是恢复时间长,一般要数天或更长时间,数据的完整性与一致性差。灾备等级为3级,只适用于商业银行数据大集中初期的要求。

暖备模式(Warm Standby ):

具备备份系统安装场地、备份主机、存储设备和通信设备,备份系统已经安装配置成与主用系统相同或相似的系统和网络运行环境,安装了应用系统定期备份数据。一旦发生灾难,直接使用定期备份数据,手工逐笔或自动批量追补孤立数据,恢复业务运行。

缺点是恢复时间较长,一般要十几小时至数天,数据完整性与一致性较差。灾备等级为4~5级,只适合于商业银行数据大集中初期的要求。暖备和冷备的图示基本相同。

热备模式(Hot Standby):

备份系统处于联机状态,主用系统通过高速通信线路将数据实时传送到备份系统,保持备份系统与生产系统数据的同步。也可以定时在备份系统上恢复主用系统的数据。一旦发生灾难,不用追补或只需追补很少的孤立数据,备份系统可快速接替主用系统运行,恢复生产。

优点是恢复时间短,一般几十分钟到数小时,数据完整性与一致性较好,数据丢失可能性最小。灾备等级为5~6级,当前金融行业主流容灾建设方向。

双活模式

采用双活模式的数据中心网络架构时,两个数据中心能同时为用户提供服务。数据中心的应用架构基本上都是多层应用架构,分Web 层、应用服务器层、数据库层,在各层上实现双活模式的难度不同。

Web 层一般不基于状态而只是HTTP 连接,因此应用基本上可以连接到任一个数据中心的Web 层。应用服务器层可以在不基于状态的应用上实现双活。数据库的集群不能跨越太远的距离,太远的距离会导致数据库的访问时间,同步策略等难以实现,因此数据库层的双活在数据中心相距较远时较难实现。

四种模式的比较如下:

容灾数据复制实现方案

根据容灾系统所采用的数据复制实现层次的不同,又可分为:基于主机层的复制、基于阵列层的复制和基于网络层的复制。

基于主机层的复制

实现方式:在主机操作系统安装数据复制软件,或是应用程序提供的数据复制、灾难恢复工具(如数据库的相关工具),利用TCP/IP网络连接远端的容灾站点的服务器,实现异地数据复制。

优点:数据复制建立在应用主机之上,用户不需更换太多的现有的系统架构,也不用担心后端存储系统的兼容性问题,并且可以满足用户的不同数据保护要求,提供多种不同数据保护模式,可实现要求最苛刻的应用级的容灾。

缺点:由于复制基于其对应的数据库或者卷管理,应用有一定局限性;需要在每台应用服务器上安装;系统运行需要占用主机资源,会影响主机的系统运行性能;操作系统的版本和存储软件的版本兼容性需要一一确认。

基于存储层的复制

实现方式:基于存储系统(磁盘阵列、NAS)内置的复制功能,通过IP网络或光纤通道等传输界面连接,将数据以同步或异步的方式复制到远端。目前各个主流存储厂商均可以提供这种容灾技术。

优点:将数据与运行分开,对主机系统的运行资源影响比较小。另外,由于运行机制大多是利用镜像来复制数据,并借助高速缓冲存储器加速I/O存取,两端的数据差异时间点比较小,加上存储系统本身具备一定的容错能力,使之具有一定的运行性能和可靠性。

缺点:成本高。由于用户必须在本地端和灾备端分别配置两套相同的存储系统,不仅采购成本高,而且还要受制于单一的设备厂商,未来的扩展性势必缺乏弹性。此外,光纤通道存储系统如果要构造远程容灾,必须在本地端和灾备端各安装一台FC-to-IP转接器,再加上网络带宽成本,整体费用投入非常大。

两地三中心架构

随着企业业务的全球化发展,“两地三中心”的数据中心架构已经不能满足其发展需求,数据中心架构将向“分级多中心”发展。在每个区域中心建立分级的数据中心,可以减轻全球数据中心的负载,节省宝贵的广域网带宽,提高区域业务的响应时间,区域中心故障不会影响到其他区域的业务。

典型的两地三中心的网络架构如图所示

全球化多数据中心架构

随着我国企业从中国走向全球,海外分支机构数据中心建设的需求也逐年增长,以下是典型的以两地三中心为核心建设的全球多数据中心架构。

互动区

*你对以上内容有什么看法?你最关注云计算哪个趋势?如果你还有想了解的技术话题,欢迎留言分享。

*「启迪云谈」每周二持续更新,敬请期待。如需转载请联系小编。

-热门阅读-

启迪云计算有限公司 | 依托于清华启迪控股集团雄厚的资本和强大的科技创新及产业服务能力 | 国际领先的私有云及行业云解决方案提供商 | 企业数字化转型首选平台

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181106G1C1XQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励