业务上云了,数据为什么还需要做云备份?

最近刷屏的云平台事故,已然引起轩然大波。我们回头看,发现这些年云平台的故障已不是孤立的事件了。大家在云平台快速发展的过程中,对云平台的认知也经历了多个阶段。从不熟悉不认可,到部分业务开始上云,再到对云完全依赖。这个过程大家对云平台的数据安全一直都有着种种误读,从完全不信任,到盲目信任。

下面我们从云平台技术架构等层面来帮助大家剖析一下:业务上云了,数据为什么还需要做云备份?

背景

我们先来回顾下几起大的云故障:

1)2015年9月,国内某著名云平台发生大规模的安全软件缺陷,导致大批用户云主机文件被异常删除,业务中断。

2)2017年2月,全球知名的云平台发生大规模存储故障,导致大量全球知名业务中断。

3)2018年6月,国内某知名云平台发生故障,直接导致用户在登陆该云平台的云控制台和使用MQ、NAS、OSS等部分功能时出现问题。

4)2018年8月,国内某知名云平台发生严重故障,直接导致某创新公司数据全部丢失,公司面临前所未有的业务停摆威胁…

以上是云平台自身原因引起的灾难性故障…

其实还有外部因素导致的问题

2017年5月,全球爆发的Wannacry勒索病毒,给网络带来了未有的挑战,云平台也不能完全幸免,

2018年1月,Intel 芯片设计缺陷,给整个IT架构带来灾难性影响,云平台性能和安全受到极大的挑战。

2018年8月,Wannacry病毒再次感染爆发,直接使得台湾的知名芯片制造企业三大生产线全线停产,直接损失超过3%,达到人民币17.4亿。

实际上,除了我们看到的公有云这些严重故障外,几乎每天都能听到,发生在企业内部的私有云,因为各种原因,包含软件缺陷、人员,电力异常等导致的业务中断、数据丢失。企业正常的生产受到极大的影响,损失无法估量。

这些内部、外部因素叠加在一起,实际上带来了几乎无法规避的现实: 云也会宕机,也会丢失数据….

云的本质

在IOE(IBM, Oracle,EMC)时代,IT专家们为了最大程度规避岗位风险,通过采用业界最知名,最大牌的服务器(小型机)、存储硬件操作系统、应用软件,同时引入最大牌的备份软件来组成自己的企业级数据中心方案。如下(示意图1):

当然这种架构维护成本相当高,一般的企业难以招架,也只有少数的大企业或有实力的机构才有能力采用。

随着各行业竞争加剧,企业需要更高效、性价比更高的IT方案,提高效率,降低成本。这时候,云计算出现了。

什么是云计算:

简单点,就是把原先分散的资源集中放在一起,需要多少,就从资源池里面提供多少。

这里资源重点指的是计算能力、存储能力、以及网络连接能力,如下(示意图2)

比如:

10家企业,每家原来采购花费了100万,共计1000万,每家实际平均只用了30万的,共计300万,实际资源还剩余了700万没有用到。

用了云计算以后,云计算平台企业一次性投入1000万建设公共云平台,每家实际30万,可以服务33家企业。当然好处,不止于直接的成本降低,还有运维管理效率的提升。

当然了,这几年开放架构性能每年翻倍,价格还不断降低,这花掉的1000万大部分是买的比原来小型机时代更便宜的开放架构的硬件,实际上通过集群连接技术,计算和读写数据能力丝毫不亚于小型机的能力。

可以说云计算是非常理想的去IOE方案,但也仅仅是在资源的组合利用和调度方面,这是目前云计算核心解决的问题。云计算目前相对成熟的服务,就是计算和存储。

在数据可靠性存储方面,我们再剖析看看构成云的核心要素块存储、对象存储。通常,我们用云计算,文件之类的数据一般就是存储在块存储或对象存储之上。数据库之类的数据,一般上规模云平台,底层也是基于分布式存储架构。

这几种上层存储服务底层都是以分布式存储为主要提供形式。

基本的数据读写逻辑是:

数据以分块的方式,写入到多个存储节点的底层磁盘。写入什么样的数据,存储是不会感知到的。也就是说正确的数据,被破坏的数据同样会被写入到存储底层。同时,因为各种磁盘电气特性或系统各种复杂的内存一致性策略等,写入的时候,还会有是否真的写入,或者写正确到磁盘上的区别(当然这不仅是分布式系统一家的情况,传统的存储也会类似)。

分布式存储(云存储),能否解决的问题列表

如果出现上面列表,本该解决的,却不能解决,那还会有其他因素综合影响。

正因为有以上问题,云平台提供方,通常会引入一些备份机制,如快照,灾备数据中心等技术。但很遗憾的是,一般的快照最多也只能解决平台体系内的问题。系统整体风险,还需要谋求独立于平台的第三方解决方案。灾备数据中心对于一般技术水平的企业还是难于驾驭。

这些平台底层的容灾设计机制,需要完全信任依赖于厂家的承诺实现。

企业上云,目前主要分成几类:

以上所有类型,底层都离不开分布式存储技术(云存储),都会遇到几乎核心的几类风险。

综上所述,云的本质在于解决资源的充分共享和调度,其安全性需要引入外部的各类服务来保证。对于如何正确上云,需要充分理解云这把利器和与生而来的风险。

最佳实践

对于云来说,不同的方式,或保护等级,对于的实施成本大不一样,可能差距到10倍不等。

正确选用方案,需要了解实际的业务情况。

对于上公有云的情况

①最低保护级别的部署

单数据中心,数据库主从配置+冷备份(异地云区域)+云主机快照是最低配置

数据库主从解决单点问题,当主节点宕机,还有从节点接管服务。

数据库冷备份解决逻辑或人为因素导致的数据丢失等风险,通常应当部署在不同的地理区域。

以上两点保障核心数据得到了基本保障。

为什么对云主机还要启用快照?上面不就是一些程序或配置么?很简单,时间就是损失,恢复时间越长,企业承担的损失越大。通常,从你copy程序和修改配置,到部署、验证、需要的时间绝对是恢复快照的·10倍以上。

当然,如果备份机制能独立于平台,那将是更好的方案。百度上搜索,会有不少云备份的方案可供选择。

②对于可靠性要求高的应用

通常采用主数据中心与副数据中心结合的结构。这种结构,没有技术力量的团队,建议还是慎用,真正能跑起来,难度大。最大的挑战,需要解决多个数据中心数据一致性问题。对于这种方案,通常建议采用主从方案,同时工作的方案,会导致系统设计复杂度异常高。

数据中心通常采用支持多线BGP机房,解决南北互通,和不同运营商之间互通问题。

主从之间数据复制可以采用云平台自身提供的一些方案或者利用第三方的数据复制软件,完成核心数据在两个数据中心(区域)复制。

对于私有云部署

部署私有云的企业,通常是有一定的IT维护管理力量,同时也是特别注重数据安全的。这种情况,通常有如下组合。

①私有云本地数据保护

对于通常的企业的IT数据中心,推荐采用私有云加上一套备份系统。

这里的私有云包含虚拟化数据中心、超融合数据中心、OpenStack等系列数据中心等。客观上存在分布式(云)存储不能规避的风险,需要最低搭配一套备份系统。请注意恢复时间对业务影响代价。如果一定要采用手动方式备份,请确保恢复时间是企业可以承受的代价。

根据重要程度,配置的备份系统有不同的指标要求。

同时,为了考虑系统的整体云平台备份支持能力,系统的灵活扩展能力和数据重删能力,也是一个重点考察指标。目前国内外有一些产品如:Veeam、CommVault、Veritas、木浪云等。其中Veeam、木浪云专门针对云和虚拟化平台设计,有更好的云保护管理能力。

②私有云异地灾备和容灾

对于保护等级要求较高的情况,两套私有云平台 + 备份系统,形成热灾备接管 + 数据和应用容灾恢复架构。私有云两地容灾架构,通常要求专线,带宽要能保障,目前的带宽还是比较贵,需要提前核算好相关的费用成本。

典型的实施方案如下。

实施方案一:

两套私有云之间,通过云平台厂商提供的存储复制技术,完成两地数据复制和同步。同时,系统需要引入一套备份系统。部署在主或从数据中心。两种部署方法,看具体情况选择。一般为了降低对主数据中心影响,通常应当部署在从数据中心。

这种架构需要云平台支持,成本投入大,数据管理粒度相对粗,一般针对整个存储系统实施,缺少各种粒度和优先级控制。

实施方案二:

两套系统之间,通过第三方完成数据备份和异地复制,形成灾备架构

两套私有云之间,通过第三方云平台备份与复制厂商,提供的数据备份与复制技术,完成两地数据备份、复制和同步。这种方案特点是管理灵活,可以细化到一个云主机系统。在备份的同时,也同时在做复制容灾。一般在从数据中心,不需要部署和主中心一样的配置,可以低于主中心。

这两种方案达到的效果如下:

简言之,数据安全无小事,无论是在云计算时代还是在传统IT的时代,数据保护都非常重要。当然,在云计算快速发展的时代,数据保护产品和方案一定要与云环境完全融合,这已是势在必行。

精彩荐读

来源:凡未注明原创的作品均属编辑转载,目的在于传递更多信息学习交流,并不代表本公众号平台赞同其观点和对其真实性负责;如涉及作品内容、版权和其他问题,请及时与我们联系,我们将及时删除。

宏业科技=连锁超市便利店管理专家,

提供“战略规划+管理咨询+连锁软件+物流系统+B2B电商”一站式解决方案。

开店不用愁,宏业来分忧

连锁不用愁,宏业有工具

赔钱不用愁,宏业来解惑

创新不用愁,宏业有妙招

管理不用愁,宏业来指导

做大不用愁,宏业有方法

请问你有什么愁?

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180810B05QQA00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券