专栏首页云计算D1net重写边缘计算的灾难恢复计划

重写边缘计算的灾难恢复计划

系统和应用程序分散在企业和云中的时代,IT领导者必须重新考虑其灾难恢复计划。

多年以来,编写灾难恢复计划一直是IT部门的责任,但是现在必须重新调整这些计划,以针对边缘计算和云计算环境进行故障转移。有哪些新功能?组织如何修改其计划?

规则1:IT团队无法控制边缘计算

考虑到采用了边缘计算和其他分布式计算策略,IT团队不能使用围绕数据中心构建的标准集中式灾难恢复计划来控制所有这些分布式计算。例如,在使用机器人技术和自动化进行的日常制造中,由生产线主管和制造人员来运行机器人,并负责确保这些资产在不使用时在锁定区域内安全可靠。在许多情况下,这些制造人员还可能自己安装和监视/维护设备,或与供应商合作。这些人员在安全性或资产保护以及维护/监视方面没有IT背景。同时,在IT之外安装新的边缘计算网络和解决方案会使可能发生故障的IT资产数量成倍增加。需要在某个地方记录灾难恢复和故障转移计划并对其进行培训,以便涵盖这些资产。发生这种情况的最合逻辑的地方是在IT 灾难恢复和业务连续性计划中。

要修改该计划,IT团队必须与这些不同的分布式计算小组开展合作。关键是让每个人都参与进来,并致力于记录灾难恢复和故障转移计划,然后定期参与和测试。

规则2:云计算应用意味着云计算灾难恢复交付

在2018年,Rightscale公司对近1,000名IT专业人员进行了调查,发现他们所在公司采用的云平台平均数量接近4.8个。

有趣的是,会有多少个公司记录了灾难恢复程序来处理云平台的中断。当专家查看客户使用的云计算供应商时,就想到了这个问题,发现几乎所有云计算供应商的合同中都有条款,如果发生灾难,采用这些条款可以免除责任。

要点:如果企业的IT部门尚未这样做,则应将其合作的每个云计算供应商都写入灾难恢复计划中。供应商承诺进行备份和恢复的服务等级协议(SLA)是什么?如果出现故障,企业(或其供应商)的灾难恢复计划是什么?企业是否与供应商达成协议,以每年测试企业在云上用于灾难恢复故障转移的应用程序?

规则3:人身安全很重要

企业的IT团队越倾向于边缘计算,找到进入生产工厂或现场办公室的途径,物理安全就越来越与灾难恢复联系在一起。如果偏远沙漠地区的现场办公室过热,服务器出现故障怎么办?或者未经授权的员工进入制造工厂的重要区域并篡改机器人的操作该怎么办?企业的灾难恢复计划应包括在分布式物理位置(而不仅仅是在中央数据中心)对设备和设施进行定期检查和测试。

规则4:灾难恢复通信必须变得更好

几年前,一家银行的数据中心所在地发生了一次地震,IT部门停机中断,虽然数据中心受到的损害很小,但是整个区域的网络和通信都已中断,因此分支机构的员工必须通过保留人工分类帐来处理客户交易,以便在系统服务返回时将其输入系统。

在这段时间里,客户询问一名柜员出了什么问题,她表示,“我们的服务器都受到了影响。”这个消息在整个社区和媒体中广泛传播,很多客户蜂拥而至,试图关闭账户。

当更多的人控制IT资产(例如边缘计算)时,这种情况会加剧。这就是为什么拥有良好的沟通如此重要的原因,它解释了在灾难中谁与谁沟通了什么内容,与谁沟通,并且每个人都坚持这样做的原因。

通常,沟通行为应该是企业的公共关系团队实施。该团队与高层管理人员进行协调,并向社区和媒体发布有关灾难的声明。

如果在员工心中没有牢固地建立和巩固这种沟通渠道,那么企业可能会发现与实际的灾难相比,企业将更多的时间花在从错误的沟通中进行灾难恢复上。

规则5:灾难恢复必须适用于多个地区

随着边缘计算和远程办公室的兴起,毋庸置疑,灾难恢复不能集中在一个位置或数据中心。特别是如果企业将云计算用于灾难恢复,需要选择具有多个地理位置的云计算提供商。这样可以在主数据中心或云计算数据存储位置发生故障的情况下,将故障转移到正常运行的位置。这些故障转移数据中心方案应包括在灾难恢复计划中并对其进行测试。

规则6:必须重新校准灾难恢复测试计划

如果企业要将更多的IT交付给云计算,并部署更多的边缘计算,则应将新的灾难恢复测试方案添加到企业的计划中,以确保针对所有这些新位置进行灾难恢复文档和测试。企业想知道其灾难恢复必须适用于所有公司的灾难恢复方案。

规则7:首席代表必须为灾难恢复提供更多的口头服务

向云计算和边缘计算的迁移使灾难恢复变得复杂。这意味着大多数组织都需要审查和修订其灾难恢复计划。对于大多数组织而言,灾难恢复和评审和修订需要花费时间,而这并不是大多数组织的工作重点,而且往往落后于需要退出的大量项目。由于云计算和边缘计算技术给IT带来的变化,首席信息官需要向管理层和董事会说明这些变化对灾难恢复的影响,以及需要投入精力和时间修改灾难恢复计划。

规则8:边缘计算和云计算供应商参与灾难恢复应该确保安全

如前所述,大多数云计算供应商在合同中并未对灾难恢复和故障转移给予太多保证。在与云计算供应商签署合同之前,供应商灾难恢复承诺和支持应成为招标书的一部分,也是重要的讨论点。

规则9:网络冗余至关重要

许多组织将重点放在灾难发生时的系统和数据恢复上,而很少将重点放在网络上。但是,考虑到当今全球互联网和广域网的作用,网络灾难恢复故障转移和冗余也应该内置到灾难恢复计划中。

(来源:企业网D1Net)

本文分享自微信公众号 - 云计算D1net(D1Net02)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • maven不打包子模块资源文件

    在maven多模块项目中,对子模块中的测试文件不需要打包到目标项目中,以免产生影响。 实现方法: 1. 将测试资源放在java/test/resources ...

    2Simple
  • 互联网App应用程序测试流程及测试总结

    测试周期可按项目的开发周期来确定测试时间,一般测试时间为两三周(即15个工作日),根据项目情况以及版本质量可适当缩短或延长测试时间。正式测试前先向主管确认项目排...

    北京-宏哥
  • 主板硬件性能测试

    项目需要使用的主板有很多性能需要经过测试之后才能用于开发使用,因此将Linux上一些常用的tools移植进板子进行测试。

    jianghaibobo
  • Flink,Storm,SparkStreaming性能对比

    该应用程序从 Kafka 消费广告曝光消息,从 Redis 查找每个广告对应的广 告宣传活动,并按照广告宣传活动分组,以 10 秒为窗口计算广告浏览量。 10 ...

    实时计算
  • python接口自动化(三)--如何设计接口测试用例(详解)

      上篇我们已经介绍了什么是接口测试和接口测试的意义。在开始接口测试之前,我们来想一下,如何进行接口测试的准备工作。或者说,接口测试的流程是什么?有些人就很好奇...

    北京-宏哥
  • python接口自动化(二)--什么是接口测试、为什么要做接口测试(详解)

      上一篇和大家一起科普扫盲接口后,知道什么是接口,接口类型等,对其有了大致了解之后,我们就回到主题-接口测试。

    北京-宏哥
  • Gatling简单测试SpringBoot工程

    Gatling是一款基于Scala 开发的高性能服务器性能测试工具,它主要用于对服务器进行负载等测试,并分析和测量服务器的各种性能指标。目前仅支持http协议,...

    sanshengshui
  • java——面向对象

    测试1和测试2编译时类型和运行时类型相同,所以没有多态发生,测试3编译时类型是BaseClass,而运行时类型是SubClass,所以当执行bs.base()时...

    用代码征服天下
  • 单元测试_JUnit常用单元测试注解介绍及代码演示

    https://pan.baidu.com/s/1OUNC0kZNduXJJLbpw76GZA

    授客
  • python接口自动化(四)--接口测试工具介绍(详解)

      “工欲善其事必先利其器”,通过前边几篇文章的介绍,大家大致对接口有了进一步的认识。那么接下来让我们看看接口测试的工具有哪些。 目前,市场上有很多支持接口测试...

    北京-宏哥

扫码关注云+社区

领取腾讯云代金券