大家好,又见面了,我是你们的朋友全栈君。...这里说的灾备测试主要指的是在我们测试过程中手工无法模拟,但是在用户使用产品的时候由于网络的原因又是会经常发生的情况,具体指的就是网络延时、请求失败、session失效等情况,下面我们就来看下针对这些情况我们该如何构造测试环境...的方式,而请求失败和session失效的情况,合作方的报文都会有相应的返回码,一般情况下我们模拟 这些情况都是设置相应的返回码,具体实现如下: if(zbValue !...,所以如果需要接口返回期望的结果时,可以设置完后,再去调用mock接口,这时就可以得到期望的异常情况了。...如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
本次的灾备演练,小明预先提交了切换架构和目标: 切换架构: ?...A与B一主一备属于同上网段,C备库位于不同网段; 上层应用在ABC三个站点静态部署,应用通过IP轮循依次访问; 当A主库出现问题时,优先切换到B备库; 当A、B全部故障时,手动切换到C备库。...小明悠哉哉,接到老板的开始切换指示后,点了一个神秘的按钮。 小王:噫?这是啥? ? 小明:“这是灾备切换大屏,可以实时看到切换流程的进度、耗时、是否成功等。” 小明:“你看,前两步执行成功啦。...小王:“你怎么做到的?” 小明:“这是嘉维蓝鲸的灾备演练自动化,实现灾备环境的一键快速自动切换。 可以添加应用,进行生产环境和容灾环境配置的统一管理: ?...添加灾备预案:不仅能做Oracle的灾备切换,OA、ERP等应用也能做哦!还能设置不同灾难场景下的预案呢。 ? 灾备切换任务:添加切换任务; 点击神秘按钮:执行。 O了,坐等下班吧!” ? ? ?
一、灾备演练的现状业务系统容灾到其他灾备中心后,怎么才能知道容灾系统的RPO、RTO是否达标?由于硬件设施迭代,业务系统也必须跟着升级,怎么才能确保系统升级后高可用?...为了验证这些问题,企业会定期进行个性化的灾备演练。灾备演练是通过模拟一套与真实灾备系统类似的模拟环境,进行灾备业务的恢复、接管等操作,以此来检验灾备系统的有效性。...所以,灾难场景不同、灾备业务复杂度不同,那么演练的技术过程与周期也不相同。常见的容灾演练方式有以下三种方式: 1、桌面演练最基础的容灾演练方式。...无论是哪种方式的灾备演练,都要考虑到技术人员调度、容灾资源消耗、业务停机时间等问题。可以看出,等级越高的灾备演练方式,成本也越高,效果和成本似乎是不可兼得。...三、用HyperBDR云容灾提高容灾演练效率,优化演练成本推荐用万博智云的HyperBDR云容灾工具,低成本任意次数实现灾备演练。HyperBDR提高了容灾演练的效率和容错率。
容灾不能替换备份 容灾系统会完整地把生产系统的任何变化复制到容灾端去,包括不想让它复制的工作,比如不小心把计费系统内的用户信息表删除了,同时容灾端的 用户信息表也会被完整地删除。...规划企业安全保障体系考虑的因素 对于企业而言到底应该如何建设自己的灾备系统,是只建设备份系统、还是只建设容灾系统、还是需要二者同时建设、或者是分步骤的建设,谁先谁后等问题,主要根据业务的需求而定: (1...常用的灾备组合方式 基于以上原因,业界在灾备系统的建设上一般按照以下几种方式: 建设机房内的本地备份系统 建设异地的备份系统 该方式可以备份系统的价格满足备份和异地容灾功能,能够避免主生产中心由于地震、...备份系统+异地容灾系统 这是一个较为理想化的容灾系统一体化解决方案,能够在很大程度上避免各种可能的错误。 容灾恢复等级 ? 灾难恢复层次 ? 灾备技术层次 ? 1.1 磁盘阵列灾备技术 ?...2.1 卷管理软件灾备技术 ? 2.2 数据库日志复制技术 ? 2.3 数据库灾备技术 ? 3.1 应用灾备技术 ? 11.容灾体系结构规划 ? 系统正常运行 ? 生产中心单台主机宕机 ?
序言 同城异地灾备,主要是用来进行备份容灾的,从而当一个数据中心挂了,另外一个数据中心经过切换之后,能让服务迅速的恢复。...随着业务的进一步发展,需要提供高可用水平,从而需要从单机房扩展为多机房,从而也就有了同城容灾。。。 对于运维来说,多一次升级,多一次变更,就会多一个故障,多一个锅。。。...2、 数据库同步 在数据库方面,主要是使用mysql,而mysql则主要是使用主备模式,从而主的在一个机房,而备库则在另外一个机房,在同步的时候,不可避免的情况就是如果一旦主机宕机,从而有可能是丢失数据的...主备复制的延迟考虑,一般主机房和备机房之间使用万兆网络,从而对于一般的数据传输来说,延迟不是很高,基本上是可以忽略的。...在数据库跨机房同步的时候,mysql可能出现脑裂的情况,也就是双机房互联网络出现中断,从而备机房检测到主机房不可用,但是在这个时候,是不能自动进行切换的,需要人工介入处理操作。
容灾设计需要进行故障切换的场景 容灾设计过程当中需要考虑的故障切换的场景有很多,数据中心内部的高可用切换不在本次讨论范围之内,我们讨论的是容灾恢复过程中的关键跨数据中心级的故障切换场景,从网络层到存储层都会涉及到...同时DNS服务能够实现智能动态解析,也就是说它可以根据负载均衡(LB)层的健康检测信息来判断解析结果是主数据中心地址还是备数据中心地址。...Failover 是指主库发生故障暂时不能恢复的情况下,主备库进行的主备切换;Switchover一般是指计划内的维护事件所需,将主备库角色切换,数据同步方向切换。...① 切换过程:备库->切换->主库->检查状态,原主库脱离DG架构; ② 应用场合:当主库发生严重故障不可逆转的时候可以使用 Failover; ③ RPO :如果用最大性能模式或者最大高可用模式配置的...适合远距离的传输模式,一般用来做异地的数据级别容灾,因此一旦发生主数据中心灾难后,那么需要网络层、应用层、数据层等一系列人工干预之后,才能启用灾备中心的存储卷,这里就不再详述。
工作机制 在vBRAS转发与控制分离组网中,CP灾备的实现过程如下: 在不同DC的CP上分别创建CP灾备组,并指定CP灾备组的主备角色。 向CP灾备组中添加待管理的UP。...对CP灾备组管理的UP而言,主CP灾备组所在的CP是主CP,备CP灾备 组所在的CP是备CP。 主CP上有用户上线时,主CP将用户数据通过RedisDBM备份到远端Redis服务器上。...实现过程为,在两个互为主备的CP上分别创建一个CP灾备组,这两个CP灾备组管理的UP范围一致。当主CP灾备组所在CP发生切换时,备CP灾备组所在CP可以接管这些UP上 的用户业务。 ?...例如,上述组网中,在CP 1上创建CP灾备组group 1并配置为主CP灾备组,在CP 2上创建CP灾备组group 1 并配置为备CP灾备组,且CP 1和CP 2上的CP灾备组group 1管理的UP...1+1备份 1+1备份方式下,主备CP同时工作。实现过程为,在两个CP上分别创建两个CP灾备组,两个CP上的同名CP 灾备组分别作为主和备CP灾备组,且二者管理的UP范围一致。
这是最常用的高可用技术,简单有效可靠。 前言 灾备,又称灾难恢复(disaster recovery)。指的是, 发生灾难时恢复业务的能力。这就意味着已经发生了灾难,进行补救。...它的流程是,前期准备,发现灾难,应对灾难。 大多数系统的自动灾备依赖外部系统实现,一些关键模块则使用分布式共识算法实现内部灾备。...自动灾备的基础 副本(前期准备) 副本是灾备的基础,没有副本拿什么容灾呢。 故障转移(应对灾难) 在当前副本不可用时,需要将流量转移到备用副本上。...有状态应用的容灾 首先,有状态系统需要具备无状态系统的能力。让可靠的副本承接流量是最优方案。 相比无状态应用,有状态应用的故障转移有前置条件,就是副本数据可靠。否则会影响数据质量。...所以数据库中有个很重要的模块就是数据同步,数据同步决定副本数据是否可靠,也影响服务的延时。这里需要取舍。 总结 副本,故障转移,探活,是自动灾备的基础。
一、说明 从主集群定期的导出最近两个快照之差,然后导入到备集群。...3.1.2 首次备份 1.在主集群创建Image的快照 2.导出主集群Image的全量快照 3.将导出的全量快照文件传输到备集群 4.备集群创建对应的pool/image 5.导入全量快照文件到备集群中...6.完成备份 3.1.3 非首次备份 1.在主集群查找最近的快照文件,并且确认备集群是否存在同名的快照 2.在主集群创建Image的快照 3.导出最近快照文件和刚创建快照文件的差量文件。...(导出每次diff,实现增量备份) 4.将导出的差量快照文件传输到备集群 5.导入全量快照文件到备集群中 6.完成备份 3.2 总结 定期的每天导出增量的数据文件,在做恢复的时候,就从第一个快照导入...定期做一个快照,导出完整的快照数据,以防中间的增量快照漏了。 定期清理快照
系统出错或者断电等等各种问题是计算机系统常常需要面对的问题,redis不像关系型数据库具有回滚和数据的恢复特性。所以这块数据的恢复就变成了一种自己去处理的粗糙办法。...Redis-check-dump是用来检测快照文件,因为快照本身是经过压缩的,因此去读取然后检测是办不到的,只能通过计算hash的方式进行。...所以说快照的话最好夸机备份,然后通过计算hash值去检测是否有保存了问题指令,但是本人在redis的文件夹中没有找到redis-check-dump相关的东西,也没找到相关的资料,以后有机会了再研究吧。...C的redis进程。...最后让我们的从节点从C机器上进行数据的拷贝。这里讲解的可能不是太清晰,下边是截图。
一、业内灾备方案 1....这个软件基于python的实现,可以说作者的实现逻辑是很清晰的,并且提供了配置文件的方式,基本上是各个细节都考虑的比较到位,很容易上手,可以直接拿来使用,或者集成到自己的平台中去,是一个很好的软件 软件包含以下功能...方案对比 方案 详细说明 优点 缺点 Snapshot 主站点备份时为存储块打快照,将快照的差异部分发送到备站点重新生成新快照 1.当前Ceph版本就支持rbd snapshot的功能 2....定期备份存在差异数据丢失 Ceph-backup 官方社区基于快照的方式,进行包装了下 同上 同上 RBD Mirroring 主要是客户端多写一份日志,然后异步同步到备集群进行实时备份 1....总结 结合业内的各大公司的灾备方案,以及社区相关的技术文档。个人建议用快照的方式, 简单、便捷、风险较低、易实现。 并且国内云厂商也普遍都是利用快照的方式实现灾备方案,然后加上自己的策略进行包装。
使用velero可以对集群进行备份和恢复,降低集群DR造成的影响。velero的基本原理就是将集群的数据备份到对象存储中,在恢复的时候将数据从对象存储中拉取下来。...可以从官方文档查看可接收的对象存储,本地存储可以使用Minio。下面演示使用velero将openstack上的openshift集群备份恢复到阿里云的openshift上。...使用阿里云oss需要特定的插件支持,velero的安装可以参见阿里云官方文档。...首先需要创建bucket,创建RAM用户并授权该用户,用户所需要的权限如下,以ecs开头的用于操作云盘快照,以oss开头的用于操作oss bucket。...---- velero的使用推荐观看该视频,讲解的比较详细。
但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的容灾演练是一种科学的方式。...但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。...腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云容灾演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷!...混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现...如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。
为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:同城数据冷备能解决企业什么问题,达到怎么样业务容灾效果?...数据不是实时备份,数据恢复存在不完整性,同时业务恢复无法自动切换,需要人工介入,数据冷备的RPO和RTO为小时级。...1.2 数据冷备挑战通常企业做数据冷备份面临难点,主要分为两部分:备份系统稳定性:系统能定时进行数据备份,同时能进行及时恢复。如果备份系统出现问题,相关人员能有效的感知并恢复的能力。...本文小结同城冷备方案,在云平台的协助下,企业几乎0成本并拥有同城数据冷备能力来保障业务生命线。指标详细说明容灾能力具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。...3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。
即使云平台在建设数据中心之前,会遵循机房建设标准来选址,但是对于极端情况自然灾害,例如地震,台风等等,对同地域备份安全能力有非常大的风险,因此本文重点阐述腾讯云对异地数据冷备解决方案。1....异地数据备份挑战相对同城数据备份,异地数据冷备主要挑战是成本,主要是跨地域之数据传输带宽成本。...异地数据冷备方案2.1 API实现方案数据备份:云平台的数据库数据备份均为同地域,因此需要将该备份数据上传到异地COS存储桶。...2.3 数据库备份服务数据库备份服务拥有一套完整的数据备份和数据恢复解决方案,具备实时增量备份以及快速的数据恢复能力,同时具备异地容灾能力。...异地数据冷备案例3.1 异地冷备方案以某在线商城为例,涉及数据产品为mysql,reids以及cos,结合云平台的能力,具体方案架构如下:图片方案要点说明:数据备份:基于数据恢复的rto时长,mysql
问题背景近期某客户需要考虑NAT网关跨地域的灾备方案,用于在上海地域运营商网络中断等场景,可以借助腾讯云内网,将对外访问的流量调度到异地出口。...代理服务器概述代理服务器分类代理服务器是计算机网络中的中间服务器,它充当客户端和目标服务器之间的中继,执行请求和响应的传递。...注:这种情况客户端在TLS握手阶段实际上是拿到的代理服务器自己的自签名证书,证书链的验证默认不成功,需要在客户端信任代理自签证书的Root CA证书。所以过程中是客户端有感的。...如果要做成无感的透明代理,需要向客户端推送自建的Root CA证书,在企业内部环境下是可实现的。...最终选型从上面分析可以看出,使用Nginx搭建四层正向代理解决方案,基本可以满足客户跨地灾备、运维自主切换的诉求。
关于Data Guard在我原来印象中是有阴影的,起源是在OCM考试中,有很多同学在一个小时内搭建出Data Guard环境,但是做了主备切换,反复切换的时候出了问题。...其实在2017年的时候,就已经在规划一本新书是关于灾备,但是拖延症的我确实拖了太久,事情悬而未决,想起来就上火。...2.在11g开始,Data Guard已经不简单是一个备库的角色了,它开始承载很多更有实际价值的任务,比如批量查询任务,比如通过快照数据库来评估DML,DDL等,所以基于这个重大的变化和方向,我觉得对Data...3.从实际的使用来看,Data Guard出现问题的情况很多和官方文档的系统性差别很多,或者说官方文档是实用不实用的内容都有,需要甄别,比如备库有两种类型,几乎99%以上都是Physical Standby...所以这些算是我对于这个灾备书籍的一个入手点和出发点。至于稿酬,如果你认真了,开始你就输了。还有个不是理由的理由,那就是这算是自己规划的一个方向,这个任务解决了,自己就不用那么纠结了。
例如,图 3 显示了 Uber 的动态定价服务(即峰时定价)如何使用双活模式来构建灾备计划。价格是根据附近地区最近一系列打车数据来计算的。...· 主备模式 另一种多区域消费模式是主备模式(Active/Passive):一次只允许一个消费者(通过唯一名称标识)从一个区域(即主区域)的聚合集群中消费消息。...主备模式通常被支持强一致性的服务(如支付处理和审计)所使用。 在使用主备模式时,区域间消费者的偏移量同步是一个关键问题。当用户故障转移到另一个区域时,它需要重置偏移量,以便恢复消费进度。...当一个主备消费者从一个区域转移到另一个区域时,可以获取到最新的偏移量,并用它来恢复消费。...图 6:主备消费者从一个区域失效转移到另一个区域 - 结论 - 在 Uber,业务的连续性取决于高效、不间断的跨服务数据流,Kafka 在公司的灾备计划中扮演着关键角色。
业务容灾是所有容灾中最复杂的一种场景,涉及到业务应用、中间件、数据库及底层的计算、存储、网络等资源。就云上业务容灾来讲整个容灾覆盖到IaaS、PaaS、SaaS层。...在容灾方案确认并且实施落地之后,就需要进行容灾切换演练工作。下面主要介绍下容灾切换演练的流程及具体操作细节。 image.png 一、确保备区所有相关的应用级中间件组件部署完毕。...先假设整个容灾切换场景在广州四区及六区进行,四区是主区、六区是备区。在六区搭建应用部署环境并先不启动业务。...四区旧主库设置为只读状态 ② 检查同步完成后,设置为读写状态; ③ datax修改,将四区所有job设置为不运行状态,开启灾备区域...③ MQ切换到广州六区,切换之前需要先关闭4区的节点。 ④ 备区cancel启动,将数据库中的数据同步至ES。
检验关键服务的跨可用区容灾能力,如架构无单点,具备健康检查、负载均衡等; 2. 检验基础监控、业务指标监控的覆盖是否全面、告警是否及时等; 3....接入层负载均衡容灾能力 2. 专线网络容灾能力 3. 逻辑层虚拟机、容器集群容灾能力 4....数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。...五、演练总结 此次moomo和腾讯云混沌演练平台的联合演练逐项验证了业务云服务容灾能力,系统的整体可用性和可靠性整体符合要求。...通过演练,客户更好地了解了服务的容灾能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。
领取专属 10元无门槛券
手把手带您无忧上云