前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >容灾系列(十)——数据热备容灾能力建设【基础篇】

容灾系列(十)——数据热备容灾能力建设【基础篇】

原创
作者头像
开元
发布2022-09-26 11:52:59
4.8K0
发布2022-09-26 11:52:59
举报
文章被收录于专栏:开元说说开元说说

企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。

1. 数据热备介绍

数据热备,对业务数据做异地的实时备份。热备对数据是实时复制备份,加强对数据的完整性保障,相对于冷备方案,RPO指标提升到秒级别。由于该方案只做异地数据实时备份,RTO指标依赖于业务部署能力,通常为分钟级。

数据热备有两个关键词分别为“异地”和“实时”,需要在再次强调一下。异地明确数据热备容灾能力,实时明确RPO指标接近于“零”。尤其是实时,对于RPO指标提升,为此需要企业投入更多的成本。相对于冷备份带宽和存储成本,热备还需要相应组件成本,例如在异地需要新建同等规格的数据库,将源端数据库数据实时同步到目标端。

2. 数据热备方案

数据热备最核心就是将源数据实时同步到灾备实例,业内云平台均能提供稳定数据同步服务,同时为了更匹配云上客户场景,平台也会将能力封装,更方便云上客户使用。

2.1 DTS同步服务方案

目前大多数企业核心数据均存储在数据库里面,同时业内头部云厂家都会提供DTS数据同步企业级服务,为数据热备方案解决了最棘手问题,以腾讯云DTS为例,覆盖业内大多数常用数据库如下:

数据传输服务
数据传输服务

DTS数据同步服务方案,有两个前提:

1)网络互通,通过云联网将源实例和灾备实例所在vpc网络打通。

2)灾备实例,建议采用云平台的PAAS服务,更好的兼容DTS同步服务。

2.2 平台热备方案

2.2.1 数据库灾备方案

目前数据库对于异地容灾备份能力进行封装,来简化云上客户操作成本,提升RTO。

1)数据库mysql为例,控制台提供了灾备实例,一站式构建数据热备份。

一站式构建灾备实例
一站式构建灾备实例

2)以redis为例,通过开启全球复制功能,将主实例的数据实时同步到其它地域的redis实例。从页面上可以看出操作非常便捷。

redis全球复制
redis全球复制

2.2.2 对象存储实时备份方案

对象存储异地数据备份,注意通过云平台的存储桶复制来实现。这里需要注意,对象存储复制只针对增量数据,对于存量数据复制通过msp数据迁移方式来复制。

2.2.3 中间见实时备份方案

ckafka云平台在数据同步已支持跨地域容灾,但是对于ckafka版本有要求,为专业版本。

ckafka跨地域容灾
ckafka跨地域容灾

3.云上客户案例

3.1 数据热备方案

以云上某电商客户为例,业务数据热备份主要依赖于云平台备份能力,在提升RPO基础上,进一步提升RTO恢复效率,当前整体数据热备技术架构如下:

数据热备架构图
数据热备架构图

该方案要点:

  • 数据备份:借助云平台现有能力完成数据实时同步。MySQL新建灾备实例进行数据热备,数据一致性要求选择同步方式,通常采用异步;Redis通过全球复制功能实现数据同步,备份地区角色为只读进行数据复制;cos设置存储桶复制功能进行数据备份,同时北京存储桶开启日志。
  • 数据一致性:不同地域通常数据同步为异步模式,当云端出现故障,可能导致数据不一致的情况,依据业务要求,需要人工介入校验。
  • 实施周期:数据备份均为平台能力,仅需要云上客户在控制台操作完成即可。
  • 业务改造:对业务没有入侵,不需要改造。
  • 资源成本:主要涉及成本包含跨地域带宽成本,COS存储成本,以及在备份实例。

3.2 业务恢复以及回切

当某个地域出现极端情况下,需要对业务进行恢复:

1)数据恢复:通过控制台已经提供切换主实例功能,即将备份节点提升为主实例对外提供服务。

2)业务恢复:在备份地域,进行业务1:1部署,同时后端数据存储地址均有变化,需要业务侧进行适配。

热备业务回切成本较高,除非业务有强诉求,通常来讲企业不会选择业务回切。如果业务需要回切,

1)数据回切:mymql通过dts同步增量数据,redis通过切换主实例,cos通过日志人工录入恢复。

2)业务回切:待两端数据一致,业务功能流程都测试完毕后,在业务低峰期进行业务回切。

4. 本文小结

数据热备主要是提升RPO指标,几乎接近为“零”;同时借助平台能力有效提升RTO指标。

方案关键因素

详细说明

容灾范围

地域级别容灾

RPO/RTO

RPO几乎接近为零;RTO为小时级别,进行1:1业务部署,依赖于业务部署和数据恢复自动化能力。

资源费用

跨地域流量,COS存储成本、数据库以及其它组件实例成本

业务改造

业务改造成本为0。

数据备份

依赖于云平台的数据备份能力,数据备份和恢复成本几乎为0。

业务恢复

业务恢复成本较高, 1. 业务部署能力,业务恢复依赖于业务测试部署自动化能力。 2.业务验证能力,业务恢复相当于业务重新部署,对于业务全面测试验证上线能力要求较高。 3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 数据热备介绍
  • 2. 数据热备方案
    • 2.1 DTS同步服务方案
      • 2.2 平台热备方案
        • 2.2.1 数据库灾备方案
        • 2.2.2 对象存储实时备份方案
        • 2.2.3 中间见实时备份方案
    • 3.云上客户案例
      • 3.1 数据热备方案
        • 3.2 业务恢复以及回切
        • 4. 本文小结
        相关产品与服务
        对象存储
        对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档