甲骨文专家访谈系列:论数据安全的最后一道防线(三)

近期,CIO 发展中心旗下的 “CISO 赋能微信群” 邀请来自甲骨文公司的两位嘉宾做客微信群访谈,与 IT 安全领域的圈内人士分享企业如何从数据的角度全方位剖析企业安全,以及如何守住企业的生命线。

在上一期的内容中,甲骨文专家带我们重新认识了备份的重要性,并介绍了甲骨文公司助力企业构建、检测、防御、恢复最后一道防御线的解决方案 —— 零数据丢失恢复一体机(Zero Data Loss Recovery Appliance)。在本系列最后一期内容中,甲骨文专家将继续与我们分享零数据丢失恢复一体机的绝佳实践和 Q&A 环节的精彩内容!

CISO 主持人:

关于我们之前谈到的零数据丢失恢复一体机,您可以与大家分享几个它在实际应用中的成功案例吗?

甲骨文专家:

说起数据安全,我觉得曾经发生过重大事故的用户可能比从来没有经历过的要更有发言权。

我们的客户 A 是世界排名前列的半导体厂商。作为甲骨文公司的大用户,该客户在多个业务地区的 5 个工厂里有总计 40 套 Oracle Exadata 数据库云平台(Oracle Exadata Database Machine)运行着包括 MES、ERP、DW、HER 在内的许多系统。2013年, 该客户的工厂发生火灾,导致生产受影响长达3个月。

受灾之后,A 开始更加仔细地对待容灾与数据安全,他们参考了甲骨文数据库的 MAA,并对其中的数据复制容灾方案以及数据库备份方案都做了测试与研究。最终形成了以下架构:

这其中的零数据丢失恢复一体机(Zero Data Loss Recovery Appliance)帮助用户把备份窗口缩减至原来的1/12,恢复窗口缩减至原来的1/3,备份空间的利用率提升至原来的6倍。

作为灾难中重新站起来的客户A,对数据库未来可能发生的故障以及他们手上可能的应对方案均进行了模拟、演练与评估,并得到了以下的应灾预案表:

从这张表中可以看出:甲骨文公司的 MAA 架构赋予了用户多种应灾方案选择,而用户通过实际操练对零数据丢失恢复一体机的作用给予了高度的肯定。

这一用户的亲身经历与事后反思佐证了我们之前反复讨论到的“备份”在数据安全以及数据容灾中的重要性。我们也希望通过这一案例让大家可以充分认识 IT 架构建设中2道防线的互补互助关系:

CISO 主持人:

好的,今天的会议到此结束了,希望今天的访谈能够帮助更多的企业用户在数字安全方面做好防护,同时也给各位奋斗在安全领域的领导们带来更开拓的思维启迪,在数字化潮流中真正为企业数据安全保驾护航,构建更健康的安全生态体系!衷心地希望本次访谈活动能够对您有所帮助。

互动问答环节:

我们大厦经常要停电检修,每次停电机房的服务器都会有很多问题,有没有更好的解决方案?另外,我们服务器比较多,大部分做了虚拟化,还有一部分是双机,但每次断电后启动都是问题。

我之前曾经做过好几年的售后,确实也经常在用户年度停机后遇到类似的问题。这种大面积关机重开时遇到的问题可以简单分为:硬件类与软件类。硬件类的问题是最难预测的。机器平时运行的很好,但是一旦重启,某些部件就挂掉了,这包括对系统日志的分析、各层级健康状态命令检查等;软件方面大多是因为在机器长时间运行过程当中陆陆续续做过的一些在线配置调整引起的,由于很多调整是可以在线进行的,所以做完以后一直没有重启,而这些潜在问题往往只有在重启时才会暴露出来。我们常用的一些处理方法是:在关电之前先进行重启操作,一方面可以提早发现问题,另一方面也可以把软硬件问题迅速区分开来。

怎么看现在的公有云呀?刚刚你也讲到了,自己维护一个 IDC 机房,做所有的备份,成本高,效率低。那么,公有云是个好的选择吗?

使用公有云来进行备份的问题,我在接触客户的过程中也遇到过。实事求是地讲,我觉得对于不少用户而言,使用公有云做备份可能是迈向云计算最简单、实用且易行的一步了。然而公有云备份也有它的一些毛病,譬如说性能、安全性、恢复操作的易执行度,以及能够为我们带来怎样的 RTO/RPO。考虑到不同企业的要求不尽相同,有的企业只要能够恢复数据就满足,但更多的企业往往对于停机时间、恢复时间等会有更加严苛的规定。而公有云技术为它的通用性、共用性、互联网连接特性等所限制,在备份速度、恢复速度、RTO/RPO 等方面一定做得会有所欠缺,而且目前是云计算大发展时期,也是云计算厂家抢市场的时期,很多云计算的服务是相对更有价格优势的,不过一旦上了这条船,以后的价格策略就不知道了……这一点,相信大家从共享单车、嘀嘀打车这些 APP 上也可以窥出一二。

甲骨文公司的方案就一定能保证数据零丢失吗?也就是说 RPO 为0?

对一些数据量大(T、P级)的企业,如何保证数据恢复的 RTO 呢?

就拿我们前面介绍到的“零数据丢失恢复一体机”来说,我们当然期望看到它能够做到严格意义上的“零数据”丢失,且从它的工作原理上来讲,它通过类似于 Oracle Data Guard 的技术,从数据库的内存 Buffer 中实时传输、捕获重做日志,这样的实时性是非常高了,但为了不拖累生产系统的性能,我们采取的是异步传输机制。

也就是数据写入 DB 之前就记下 redo log 了?

严格意义上来讲,我们目前确实没有办法保证绝对的“零数据丢失”,不过,从我们现有用户的实际使用与测试情况来看,在局域网环境下,即使数据库在任意生产时刻ShutdownAbort,我们都能在零数据丢失恢复一体机上捕获其最新的一个 SCN 数据,所以,基本上是实现了零数据丢失。

上面提到的“永久增备,只用基于一个全备”也就是说只用全备一次,以后都增备即可?

是这样的。我们只要在产品安装实施过后的第一次备份时做全量备份,之后的所有备份都是增量备份。

那在真正的 DR 时,是不是很耗时呢 ?

增量备份的数据进入到零数据丢失恢复一体机后,零数据丢失恢复一体机会利用自己的计算资源对备份进行合成,将之前的全量备份与刚收到的增量备份合成为一个新的虚拟全量备份,然后,这个合成出来的新的虚拟全量备份又会作为之后合成的基础。这样的操作全都是在零数据丢失恢复一体机中进行,完全不需要被保护的数据库服务器参与,且对被保护数据库服务器是完全透明的。虽然这样做消耗的是零数据丢失恢复一体机的时间与计算力,但是它的好处在于:每天仅用增量备份的时间窗口、带宽、计算资源、存储空间就获得了全量备份,而全量备份恢复起来是最快的,因为整个恢复过程不需要追增量,这样会对 RTO 有极大的帮助。

一体机资料给个链接

https://www.oracle.com/cn/engineered-systems/zero-data-loss-recovery-appliance/index.html

零数据丢失恢复一体机是否支持多节点?它是如何处理几百 PB 或更大的数据?是否适合大数据平台?

零数据丢失恢复一体机单台内部为全冗余设计,所有的服务器、存储节点、网络等均有冗余,不惧单点故障。其中存储结点从3个起配,可以横向扩展。即使多达18台零数据丢失恢复一体机也可以通过 Infiniband 连接在一起,当作一个实体使用,继而进一步扩大容量与处理能力。所以对于 PB 级的数据体量它完全不在话下。

是否支持异地集群?

支持异地间零数据丢失恢复一体机的相互数据复制,形成容灾架构。

异地支持同步模式吗?

异地并不支持同步模式,零数据丢失恢复一体机与零数据丢失恢复一体机之间的工作模式是不同于零数据丢失恢复一体机与被保护数据库服务器之间的工作模式的。两台零数据丢失恢复一体机之间仅是定时复制指定的备份集,形成备份数据的远程容灾拷贝,且更多情况是为了特定行业的合规需求。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180619A11UIV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券