数据中心虚拟化备份恢复典型问题及其解决方案思路

本文简单介绍当前虚拟化环境备份恢复系统规划与维护过程中可能会遇到的几大典型问题,提供解决思路抛砖引玉。

虚拟化系统数据保护的发展

服务器虚拟化作为企业级数据中心核心基数架构的重要角色, 无论是现阶段已经普及虚拟化集群, 还是未来将要实现的云平台,都离不开虚拟化的全面支持。随着近些年信息化的冲击,企业级虚拟化系统中数据体量也有了显著提升。随着数据量级的逐步增长,数据保护问题日渐凸显。在各大虚拟化系统中,HA、FT 以及 DRS 等技术虽然保证了虚拟化集群的高可用性和持续支撑业务系统的能力, 但对于数据离线、 数据历史版本保留以及防范数据逻辑错等方面的保护越来越捉襟见肘。

在享受着虚拟化带来的诸多经济效益后,也不得不得面对虚拟化环境中数据保护的几大难题:首先,随着数据价值的深度发掘,数据离线需求也越来越强烈。虚拟化规模提升后,凭借虚拟化系统自身的数据保护手段,数据离线任务就溢出诸多问题:数据历史版本的保留、数据永久离线保留、数据保真防篡改等。其次,虚拟机规模量级增长后,对数据保护的资源消耗大幅增加,最终空闲时间窗口内现有资源无法承载大量并行的数据保护任务。再者,随着虚拟化的逐步普及,企业对虚拟化系统上的数据恢复要求也越来越高,甚至在数分钟内完成虚拟化数据的恢复任务。最后,各服务在虚拟化系统上应用越来越广泛,各类应用的保护也成为虚拟化数据保护的主要任务之一。

面对服务器虚拟化上的数据保护, 在虚拟化数据保护起步阶段, 各大主流厂商主要采用备份代理服务器的方式备份虚拟化内的虚拟机或数据, 即部署一台物理或虚拟服务器与虚拟化系统进行集成, 使其识别到虚拟化系统内所有计算、存储资源,然后备份期间由虚拟化系统管理控制台配合调度备份快照任务,所有需要进行数据保护的虚拟机或虚拟化数据都将挂在至备份代理服务器, 最后传输至备份存储。 这种备份方式不仅无法承载大批量级并行数据保护任务、效率相对较低,而且对虚拟化平台的一体化管理维护造成不小困扰。

针对传统虚拟化数据保护的方式,各大备份恢复系统厂商推陈出新。以软件起家的 Commvault、Veeam 等厂商发力研究虚拟化引擎与快照技术,充分优化与虚拟化平台数据保护的各个流程,取得了显著成绩。Commvault 主打智能化管理,Proxy与虚拟化系统之间完美兼容,通过 Commvault 的虚拟化保护配置流程即可自动完成部署。而 Veeam 主打与虚拟化平台的高度集成, 通过在虚拟化管理平台上可以嵌入Veeam相关模块来完成数据保护任务。 值得注意的是,Veeam 也能实现对特定的虚拟化存储进行快照管理,能够借助存储快照加速数据保护任务;以软硬件并驱的EMC 大力推广 Networker/Avamar+Datadomain 解决方案,Networker 作为集中式备份恢复平台,不仅可以管理虚拟化备份还可以管理维护其它平台数据保护。 若虚拟化体量巨大, Avamar 则可发挥其高效的重复数据删除,百 GB 级别的虚拟机基本都可以在数分钟之内完成, 在满足对应条件的情况下, 无需恢复即可从备份系统中拉起虚拟机,抽取虚拟机内数据。Datadomain 作为后端备份存储,具有最先进的可变长重复数据删除技术极大优化备份恢复效率,提高其数据存储使用率。DataDomain 拓展插件可以实现从客户端直接到其的备份恢复,不需要备份恢复系统参与调度。IBM 的 Spectrum Protect Plus 解决方案在虚拟化数据保护方面也同样优异:无需安装客户端软件、无需恢复直接拉起虚拟机、高效一体化的集成平台……

虚拟化系统的发展越来越成熟,数据保护的手段也越来越先进,不仅仅是数据保护的维度更加全面,数据保护的技术也在不断革新。随着云架构的普及,数据保护即服务的技术理念也不断渗透至备份恢复系统的核心,在不久的将来, 数据保护 (备份恢复) 不再是机械式的配置任务, 而是能以更自由的方式 (例如云) 定制各项策略,数据保护精度能从虚拟化集群、虚拟机、虚拟磁盘甚至缩小到虚拟机上某一个文件,更加灵活智能化完成对虚拟化系统上的数据保护。

虚拟化系统数据保护的典型问题

本章节主要简述虚拟化系统数据保护中容易遇到的典型问题及其解决方案思路,以供各位参考,备份恢复技术也日益更新,错漏之处欢迎各位指正、交流。

以下为方便描述与理解,案例均以 Vmware 为例进行说明。

业务系统现状:

虚拟化系统有三大业务区,每个业务区之间网络物理隔离,单台虚拟机均不大,都在 100GB 以内(部分虚拟机除外),但虚拟机规模较大,300 台左右。绝大部分虚拟机主要是 web server 角色;少部分服务器作为中转机承担文件存储,保留历史过程文件,甚至将一部分永久保留文件写入 NAS 中;还有几台数据库虚拟机,主要承载了部分非核心业务系统的数据服务,作为中间平台联通业务。

数据保护现状:

备份系统只有一台备份恢复代理机(与备份存储相连),备份窗口紧张,虚拟机备份模式仅支持全备份和增量备份。

优化思路:

1, 如何提高并行效率?

在策略上:通过分析此场景下业务系统特点可以知晓,大部分虚拟机为Webserver,在运行过程中除产生的 log 外其余数据相对静止,若大幅提高这一部分虚拟机备份速度,那么数据保护的整体效率将提升一个台阶。大部分数据静止,小部分数据不断变更,这一特点恰好契合(CBT 状态下)全备份+增量备份的策略,若是考虑到更高级别的数据保护要求呢,那么可以选择直接从虚拟机对需要保护的文件范围局部备份或采用重复数据删除技术来实现。

在数据保护架构上:当虚拟机规模进一步扩大时,一台备份代理服务器终将不堪重负。因此推荐为各业务区单独部署备份资源。

2, 如何保障备份数据的可靠性?

在实际管理维护中,经常发现有运行数据库的虚拟机需要进行数据保护,而备份管理员常常是针对数据库集群中某一台虚拟机进行备份。在备份整台虚拟机的时候,虚拟化 tools 会拦截对虚拟机的流量、悬挂 IO,然后对虚拟机文件系统进行冻结锁,再进行快照,在这个过程中数据库内存中的数据很可能发生变化并且与文件系统上数据不一致,因此对于运行在虚拟机上的数据库,最可靠的备份方式是通过数据库的接口进行备份,如 Oracle 的 Rman 工具。数据库的备份接口在备份恢复过程可以实时感知数据保护进程,然后将数据库调整到一致状态从而配合数据保护,而虚拟化 tools 无法做到感知数据库一致性。

3, 如何保障数据保护的健全性?

针对虚拟化上的数据,强烈建议对所需要保护的数据进行多层次备份,如虚拟机进行一套策略的备份,对重要虚拟机上文件及目录再进行文件级别的备份, 对运行数据库的虚拟机通过数据库接口再对数据库单独备份。另外,NAS 上的数据务必从最可靠 NAS 专用数据保护方面入手,对于 NAS 大量碎片文件的备份恢复,在 10TB 级别内 NDMP 备份能够胜任一定程度上的数据保护;若是超过 10TB 级别,为了保障备份恢复效率,可以采用并行多路备份。虚拟化数据保护,一定要从多层次、多精度、多方式的保护。

综合以上分析与考虑,可以初步设计出新的改进方式,每个业务区增加一台重复数据删除节点承担每个区段的重复数据删除压力,避免对业务区产生明显影响,同时提高了各个区段的数据保护并行性。

经过重复数据删除后,网络传输到虚拟化代理服务器的数据将显著减少,若现有资源条件不允许,可以只部署一台代理服务器将重删后的数据写入备份存储。经过综合分析改进后,整体架构图如下:

适合产品:

Commvault、 Networker、 Datadomain、 Avamar、 NetBackup、 Veeam 和 IBM Spectrum Protect 均可以实现上述功能,但如果需要软硬件结合的重删方案都需要用于存储备份数据的磁带存储支持。

点评:

在功能易用性上 Commvault 产品相对简单,提供全界面化的操作,友好自动化操作Networker、NetBackup 经过几年的发展界面也很人性化,同时提供后台进行 debug 查询,对于上手后的备份管理员十分友好;Datadomain、Avamar 非常稳定,易用上欠缺但配置完成后基本不用干预运行,由于后台及运行原理不开放, 因此上手难度高, 好在售后服务非常专业, 疑难问题都可以及时解决;IBM Spectrum Protect 产品在界面、易用性以及功能性都可以与上述产品并驾齐驱,且服务友好专业。

其他建议:

备份恢复系统,可以说是一道保障。等到它派上用场的时候,那已经是生死攸关的境况了。备份恢复系统,更像是最后一座靠山,需要它持久可靠、稳定、关键时候不掉链子,也因此对备份恢复系统的选择也更要注重对支持服务的选择。主流各大厂家售后服务及现场支持都不差,现场支持专家的水平也很高,Veeam/Commvault/Networker 原厂专家实力都不错,Datadomain、Avamar 以及 IBM Spectrum Protect 这类硬件或软硬件结合的产品售后都能提供有力支持。 若是对于现场服务有更高的需求, 还是建议购买第三方的技术专家驻场或现场支持服务,关键时候也许有意外惊喜。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181114B0AMKW00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券