产品容灾主要就是将云产品做跨可用区或者跨地域部署,实现多地部署,如果某一个地域出现了问题的时候,可以进行自动切换,确保整体可用。
业务容灾是所有容灾中最复杂的一种场景,涉及到业务应用、中间件、数据库及底层的计算、存储、网络等资源。就云上业务容灾来讲整个容灾覆盖到IaaS、PaaS、SaaS层。在容灾方案确认并且实施落地之后,就需要进行容灾切换演练工作。下面主要介绍下容灾切换演练的流程及具体操作细节。
腾讯云对象存储 COS 为客户提供了99.95%的可用性和99.999999999%的可靠性。由此可见,数据可靠性是极高的,即使在极端故障场景下,也可以保证客户的数据不丢失。但实际线上系统更常遇见的是,因为网络拥塞、程序异常等原因,而导致的COS服务不可用,如对象读写失败,API调用异常等。当这些故障发生时,如果没有合适的冗余措施,即使存量数据不丢失,也会造成一段时间线上服务有损,影响用户使用体验。本文会结合一些客户的实际案例介绍一种COS服务的高可用方案。
如果您有自建源站和直播源内容,并且需要通过腾讯云进行直播播放,可以通过为云直播播放域名设置源站信息来回源拉取直播内容。配置成功后,您可通过云直播回源拉流并进行直播内容分发。
容灾设计过程当中需要考虑的故障切换的场景有很多,数据中心内部的高可用切换不在本次讨论范围之内,我们讨论的是容灾恢复过程中的关键跨数据中心级的故障切换场景,从网络层到存储层都会涉及到,其主要涉及如下几个方面:
数据中心运行突发故障(如:天灾不可避免的灾难)是无法预测的,计算机里的数据就像扫雷游戏一样,十面埋伏充满雷区,随时都有可能Game Over,容灾备份就是数据安全的最后防线,是你可以避免由数据中心发生故障而丢失数据引发的不可挽回的局面。
热备:备份设备与主设备一起工作运转,当主设备故障时,备份设备能立即取代主设备的工作
实现业务连续性的技术手段通常包括高可用性和灾备恢复两种,所以本文讲述的是在腾讯云上实现业务连续性的解决方案。
时至今日,企业运作和业务运营对于IT系统的依赖性越来越高,对于IT系统的稳定性和可靠性的要求也越来越高。然而,"天有不测风云,人有旦夕祸福",一旦IT系统因为天灾或人为因素等等意外事故导致系统毁坏而长期无法运行,将造成整个企业在营运上的重大损失。曾几何时支付宝、携程等互联网企业由于IT系统技术故障而相继“瘫痪”,更是从反面说明了容灾系统建设的重要性。
在当今快速发展的数字化时代,业务的连续性和稳定性已成为企业核心竞争力的重要组成部分。然而,由于各种原因,企业常常面临着数据丢失、系统瘫痪等潜在风险。因此,制定一套科学、高效的容灾方案至关重要。本文将围绕某全球领先的工业集团如何通过灵雀云企业级云原生平台ACP(以下简称ACP)实现高效的容灾方案展开深入探讨,旨在为您提供可借鉴的经验和启示。
容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。容灾中心的架构按照源备端之间的距离,可分为本地容灾、同城双活、两地三中心。
后台开发的目标是要提供高可用的后台服务,其中很重要的一点是保证业务连续性(服务不中断,或中断时间在允许范围内)。
腾讯云健康看板(Status Page)已于上个月在腾讯云官网正式上线。作为腾讯云的status page,用户可以通过腾讯云健康看板,及时关注到腾讯云各个产品的最新可用性状态。
越来越多的企业在数字化转型和上云进程中选择混合云的形态(云+自建 IDC 或云+其他厂商云)来进行容灾建设,一方面不会过度依赖单一云厂商,另一方面还能充分利用已有的线下 IDC 资源。
作者介绍 万守兵:腾讯云行业架构师,对云上双活架构、迁移方案有比较深的了解,现主要负责腾讯云泛互行业TOP级客户的解决方案架构工作。 高可用挑战 1. 高可用挑战:时间要求 2. 高可用挑战:各种不稳定的原因 常见事故及问题归类如下: 互联网通用架构和分层 典型互联网架构分层设计如下: 系统正交分解如下: 分类 服务治理 目标 技术 架构 监控层外层客户端SLA、攻防/扫描/审计 CDN合理/稳定
一、高可用的挑战 1、高可用挑战-要求 image.png 2、高可用挑战-各种不稳定的来源 常见事故及问题归类如下: image.png 二、互联网通用架构和分层 典型互联网架构分层设计如下: image.png 系统正交分解如下: 服务治理目标 技术架构 监控层 外层 客户端SLA 攻防/扫描/审计 CDN合理/稳定 DNS合理/稳定 流量峰值 CDN DNSPOD/Ip直连 高防 客户端监控 CDN监控 DNSPOD监控 安全监控 接入层 异地多活 服务
企鹅电竞登录鉴权系统是企鹅电竞电竞所有写请求的前置关键路径,需要具备高可靠性。其核心存储依靠 CMEM,为保证服务的稳定运行,搭建一套同构 CMEM 存储,热备 Login 数据,在 CMEM 发生存储或网络故障时保证登录鉴权服务正常运行。
一般意义上,备份指的是数据备份或系统备份,容灾指的是不在同一机房的数据备份或应用系统备份。备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于:
今天跟大家分享的题目为《CKV+异地容灾探索和实践》。CKV+是一个兼容redis协议的内存数据库,现在大部分用户对内存数据库的要求越来越高,对一致性、异地容灾等方面也提出更高的要求。下面从过往经验教训、可用性&一致性、CKV+架构演进、CKV+单活多可用区和CKV+多活架构探索等方面跟分享一些关于容灾的实践和思考。
数据库作为企业数据的管理软件,是企业的核心资产,需要避免单点灾难,因此数据库灾备需求应运而生。
单点故障是实际生产中无法避免的,单副本的存储方案也早已无法满足业务的可靠性要求。现在,我们通常都会做双机存储架构,会涉及到主备、主从、主主模式。
为了保障系统可用性, 我们通常会为了应对故障将组件或数据做冗余。常见的类型包括: 变更故障、硬件故障、断电断网、自然灾害, 发生的频率一次降低。
热备的情况下,只有主数据中心承担用户的业务,此时备数据中心对主数据中心进行实时的备份,当主数据中心挂掉以后,备数据中心可以自动接管主数据中心的业务,用户的业务不会中断,所以也感觉不到数据中心的切换。
在云网融合大数据时代,数据已经成为重要的生产要素。特别是棱镜门、永恒之蓝、汶川大地震这类造成大规模数据丢失和泄漏的人为或自然灾害事件发生后,中国相继出台了一系列的法律法规,对各组织机构的数据安全保护条件进行限定,如 2016 年颁布的《中华人民共和国网络安全法》、 2021 年全国人民代表大会通过的《数据安全法》等。
当前市场上常见的容灾模式可分为同城容灾、异地容灾、双活 数据中心、两地 三中心几种。
说起容灾,很多同学脑子冒出来熟悉字眼,”同城双活”,“两地三中心”,“单元化”,“set化”等等。其实这些名词背后均隐射一层含义,面对一些灾难时候,业务如何做冗余来快速恢复业务。
本次VMware vForum大会(北京站和上海站),有幸和同事Alex You一起分享了《如何基于虚拟化构建双活数据中心》课题。我主要负责介绍了VMware灾备与双活方案。很多同学表示出来了较大的兴趣,因此写出来共享给大家,由于内容较多,本次先发布灾备部分内容。 一.灾备 谈到灾备,首先谈到灾害。在过去几年中,全球各国经历过许多大范围的灾难,如海啸,地震等。这些是我们从新闻上得知的比较重大的示例,但同时还存在很多范围较小的中断示例,如数据中心断电、数据中心网络中断、主机故障等。行业研究显示,那些经历大
本文叙述了高校业务系统及数据容灾备份方案 2.0 的应用探索和实践,介绍了数据库双活、应用秒级容灾和数据级实时备份、虚拟化平台备份等综合性创新应用,满足当前教育信息化 2.0 行动计划的信息安全需求,助力高校在等保、容灾、数据同步等方面的发展。
腾讯云上部分客户,基于腾讯云云产品能力,在同地域不同可用区,快速构建了业务级别的同城双活架构(如下图)。具备了单产品/单链路的高可用能力,同时也具备同城单可用区异常时的容灾的能力。
也许很多企业很幸运,从来没有经历过数据丢失。但是,一旦发生企业关键数据的丢失,就会很大程度上影响业务发展,同时造成严重经济损失。
腾讯云Status Page(Tencent Cloud Health Dashborad ),作为腾讯云官方的产品可用信息对外窗口,需要保障在极端的故障情形下,还能及时且正确地对外呈现关键信息,这要求在架构设计和部署上做到多地域级别的容灾效果。为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。
腾讯云健康看板(Status Page)已于2023年在腾讯云官网全面上线,为用户提供腾讯云产品在全球各区域的健康状态和可用性相关的信息,方便用户及时关注或在需要的时候进行回溯查询。同时也作为云顾问的原生垂直应用,将账户级的健康状态信息与架构图进行实时关联可视化展示和推送,助力企业更好管理云上架构与资源,打造“云上心安”的卓越架构。
在构建容灾系统所涉及的诸多要素中,数据复制技术是基础,只有保证了数据的安全可用,应用或是业务的恢复才有可能。正常情况下系统的各种应用在数据中心运行,数据存放在数据中心和灾难备份中心两地保存。当灾难发生时,使用备份数据对工作系统进行恢复或将应用切换到备份中心。
科技的快速发展正在推动产业格局演进,新一轮产业变革的核心是信息网络技术的应用,互联网、智能终端等新一代的信息技术的发展,将带来诸多产业的变革和创新。IDC认为,目前IT技术的发展正处于从传统平台技术向以云计算、移动化、大数据和社交媒体为代表的第三平台技术演进的过程中,云计算等技术将成为驱动未来20年ICT市场转型和增长的主要动力。
基于存储设备的数据复制技术的核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。在主数据中心发生灾难时,可以直接利用灾备中心的数据建立运营支撑环境,为业务继续运营提供IT支持。同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。
当前,市场上常见的容灾模式可分为本地容灾、同城容灾、异地容灾、双活数据中心、两地三中心几种。
最近也在对容灾的切换做一些改进。 目前碰到的问题有 1.灾难切换后备库的内核参数设置不到位,导致切换后又潜在的性能问题 2.灾难切换后在同机房,网络相关的情况下,需要切换备库的IP为主库,但是跨机房,跨IDC可能不行,可以修改IP的情况下,对应用基本是透明,但是如果修改IP就需要应用修改配置。 3.灾难切换之后防火墙信息在主库无法得到的情况,在备库只能关闭防火墙,或者设置最大的访问权限 4.原来主库中的db link可能无法正常解析,如果解析不当或者依赖较多,会有数据库负载成百倍暴涨的可能性 5.原来主库启
企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。
IGTM是什么? 腾讯云智能全局流量管理(Intelligent Global Traffic Management),简称IGTM,可以帮助用户实现应用服务的高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便用户灵活快速的构建同城多活和异地容灾等高可用服务。 IGMT做什么? 1、主备容灾。当你为业务部署资源,既配置了电信IP,又配置了移动IP,正常情况用电信的,一旦发现电信的不通了,就启用移动的,等电信正常后,再换回到电信IP。 2、多活。 你有多个IP池同时向用户
本文介绍了蚂蚁金服异地多活单元化架构的原理,以及微服务体系在此架构下的关键技术实现。
陈守志 腾讯公司平台运营开发组 一、关于容灾 关于容灾主题,这里罗列对比了几种常见的容灾案例: 相对接入层、应用层容灾而言,数据层的容灾相对比较复杂,实现起来难度大一些,下面主要针对公司
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
在业务系统上云的过程中,业务部署的高可用和容灾是一个要考虑的关键因素。如今很多系统都采用分布式的架构,从架构层面避免单点故障。分布式系统中,任意一个节点故障,其他节点可以快速接管业务,避免整个业务系统宕机。 这就对IaaS层资源提出了要求,即单节点故障,不影响其他节点。 由于公有云是一个多租户的环境,一台物理机上会运行多个虚拟机,如果分布式系统的多个虚拟机落到了同一台物理机上,当物理机发生故障时,多个分布式节点同时故障,就有可能造成整个系统宕机。 那么在公有云的IaaS层,如何才能保证分布式系统部署的高可用呢? 使用腾讯云的分散置放群组可以解决这个问题。
出于业务连续性与数据保护等目的,最早是银行等金融机构完成了业务的容灾系统的建设,随后电力等关键能源行业、海关等政务单位、大型互联网公司都着手建设了完备的业务容灾系统。
容错(fault tolerance)指的是, 单个组件发生故障时,业务还能继续运行。
领取专属 10元无门槛券
手把手带您无忧上云