灾备,是企业中一项重要的技术应用,对于企业数据安全起到了很大的作用。 一般来说,灾备的级别可以分为数据级、应用级和业务级三个级别。
为了保障系统可用性, 我们通常会为了应对故障将组件或数据做冗余。常见的类型包括: 变更故障、硬件故障、断电断网、自然灾害, 发生的频率一次降低。
企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。
容灾(Disaster Tolerance):就是在上述的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。
业务数据备份采用热备方式,容灾指标RPO接近“零”;但是RTO指标还是依赖于业务部署测试自动化能力。业务会进一步需要,在数据热备技术架构下,在成本可控的情况下,是否能进一步提升RTO指标呢? 本文结合云平台的能力,来进一步讨论这个话题。
你知道吗?自然灾害、设备故障、人为因素等都会造成业务中断。如今数字化时代,IT系统故障更会对公司业务造成难以估量的巨大经济损失。
本次VMware vForum大会(北京站和上海站),有幸和同事Alex You一起分享了《如何基于虚拟化构建双活数据中心》课题。我主要负责介绍了VMware灾备与双活方案。很多同学表示出来了较大的兴趣,因此写出来共享给大家,由于内容较多,本次先发布灾备部分内容。 一.灾备 谈到灾备,首先谈到灾害。在过去几年中,全球各国经历过许多大范围的灾难,如海啸,地震等。这些是我们从新闻上得知的比较重大的示例,但同时还存在很多范围较小的中断示例,如数据中心断电、数据中心网络中断、主机故障等。行业研究显示,那些经历大
容错(fault tolerance)指的是, 单个组件发生故障时,业务还能继续运行。
在云网融合大数据时代,数据已经成为重要的生产要素。特别是棱镜门、永恒之蓝、汶川大地震这类造成大规模数据丢失和泄漏的人为或自然灾害事件发生后,中国相继出台了一系列的法律法规,对各组织机构的数据安全保护条件进行限定,如 2016 年颁布的《中华人民共和国网络安全法》、 2021 年全国人民代表大会通过的《数据安全法》等。
在云时代,大部分中小型企业都奔跑在云上或是服务器托管公司。任何规模的数据中心服务中断都会让你的企业踩雷。据统计,80%的数据中心服务中断都是由服务器硬件造成的。
时至今日,企业运作和业务运营对于IT系统的依赖性越来越高,对于IT系统的稳定性和可靠性的要求也越来越高。然而,"天有不测风云,人有旦夕祸福",一旦IT系统因为天灾或人为因素等等意外事故导致系统毁坏而长期无法运行,将造成整个企业在营运上的重大损失。曾几何时支付宝、携程等互联网企业由于IT系统技术故障而相继“瘫痪”,更是从反面说明了容灾系统建设的重要性。
就像在“传统关系数据库高可用的缺失”一文中所看到的,高可用在传统关系数据库的理论和实践上都是缺失的,这使得传统数据库无法做到主库备库完全一致,为了减少主库故障对业务的影响不得不使用昂贵的高可靠硬件,缺乏高可用还导致了分布式OLTP数据库缺失、无法水平伸缩从而使得高并发业务不得不采用更加昂贵的大型服务器等。作为分布式关系数据库,OceanBase必须解决这个问题。那么,采用普通PC服务器的OceanBase是如何做到高可用的呢?
墨菲定律,鸡蛋不能放在同一个篮子中。数据库是最重要的资产,出现单点故障确实不可避免,我们应提前做到数据库备份,出现故障时能够快速恢复。
在数字化转型的热潮中,业务数据无疑是企业的生命线。无论业务部署在IDC还是云平台,对数据备份都是有强烈诉求。随着共享经济的不断深化,越来越多企业将自身业务逐渐的搬迁到了云上。为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:
在当今快速发展的数字化时代,业务的连续性和稳定性已成为企业核心竞争力的重要组成部分。然而,由于各种原因,企业常常面临着数据丢失、系统瘫痪等潜在风险。因此,制定一套科学、高效的容灾方案至关重要。本文将围绕某全球领先的工业集团如何通过灵雀云企业级云原生平台ACP(以下简称ACP)实现高效的容灾方案展开深入探讨,旨在为您提供可借鉴的经验和启示。
容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。
HyperBDR云容灾是云原生业务级别容灾工具,充分利用云原生能力提升容灾效率,降低容灾TCO。采用块级别全量增量复制技术,备份效率高;最新无主机数据同步技术,让容灾数据存储成本更低,让数据跨平台流转更自由;Boot in Cloud独家技术,支持一键在云端恢复业务主机到可用状态;基于云原生编排能力,实现业务资源组一键容灾,保障业务连续和高可用性。HyperBDR云容灾目前支持国内国际20+云、40+云版本。
对于金融企业来说,尤其是银行、证券、保险这些行业,在一个 IT 系统运行支撑业务的过程当中,考虑到硬件的故障、网络的故障,等一切可能会对业务产生影响的突发故障。那么,在过去漫长的 IT 发展的过程当中,大量的技术被应用在关于如何解决组件级的高可用,整个服务的容灾和灾备,包括如何保证整体业务的连续性。
1、 据 Windows Centra 报道,微软计划在本月晚些时候发布新款 Surface Pro 和 Surface Laptop 硬件产品,而这些产品将会作为微软首款人工智能 PC 推出。--oschina
灾备系统建设是IT领域永恒的话题,但是,目前很多企业仍未重视灾备建设的重要性。不少企业的数据基本是裸奔状态。有些人认为存储或者服务器上做了RAID就万无一失了,这是被严重误导了,RAID只能防止单盘故障时数据不丢,是为了应对硬盘错误,其目的不是备份,其无法防止由于病毒感染、误删除、环境灾难导致的数据丢失。而另一小部分人则是压根没想着去保护数据。不少企业都是在经历过数据丢失导致的一系列损失之后才痛定思痛的。
大型国有银行,整体核心的系统都是大机+DB2 这样的传统架构;针对现在的互联网金融业务快速扩张的需求,传统的架构面临着比较大的挑战。
可靠性、可用性、可维护性(Reliability, Availability, Maintainability - RAM)是软件开发过程中的三个重要方面。本文与大家探讨下关于高可靠性的设计,首先来看下关于可靠性的定义。
容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。容灾中心的架构按照源备端之间的距离,可分为本地容灾、同城双活、两地三中心。
大型国有银行,整体核心的系统都是大机+DB2这样的传统架构;针对现在的互联网金融业务快速扩张的需求,传统的架构面临着比较大的挑战,主要集中在四个方面:
数据资料是整个系统运作的核心,而人为或非人为引起的数据丢失将对的企业造成无法估量的影响。因此系统管理员都会考虑通过数据备份手段对业务数据进行保护。但在现在云数据中心的兴起带来的是海量数据被集中起来。相较于传统备份行业常见的小容量(小于500GB)RTO、RPO敏感型场景,在云数据中心带来的挑战下完全无法作到有效保护。
在“十四五规划”中,数字中国、数字经济、数字孪生、数字转型等相关词汇出现60余次,由此可见国家对各行业数字化转型的决心。但是目前,除了互联网行业的部分企业和各个大型企业,已经完成数字化转型,中小企业的数字化程度仍处于较低水平。中小企业是我国市场的主体,因此我国各行业的数字化整体水平仍有很大的上升发展空间。
在衡量系统高可用的时候,我们经常能看到几个专业词汇,例如RPO和RTO,像OceanBase号称可以做到RPO=0,RTO<30s,RPO和RTO代表了什么?
灾备: 是指容灾和备份。容灾是为了在遭遇灾害时能保证信息系统能正常运行,帮助企业实现业务7*24小时连续性的目标,备份是为了应对灾难来临时造成的数据丢失问题。容灾备份产品的最终目标是帮助企业应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。
导语 近几年,大型公有云故障引发的生产业务事故案例时有发生。由于很多开发者默认大型公有云的服务是一直可用的,在开发时没有针对公有云服务进行容错设计,在公有云故障时,就出现了业务的异常。可见,由于大型公有云实际上已经成为了全社会共同拥有的IT基础设施,其业务的高可用也已经成为了企业社会责任的一部分。腾讯云是如何通过完备的高可用设计,来保证云服务的业务连续性和数据持久性,从而承担大厂应有的社会责任的呢? 这篇来自腾讯专有云的架构师方天戟的万字长文为您揭开腾讯专有云高可用设计的内幕。 一. IT 业务高可用的
当地时间1月11日,美国联邦航空管理局(FAA)发布停飞命令,短暂停止了境内所有航班起飞,停飞时长达90分钟,造成超过9700个航班延误,超过1300个航班被取消。 如此大规模事件的“罪魁祸首”是航空任务通知系统NOTAM的一个数据库文件发生了损坏,该系统用于向参与飞行操作的人员提供关键安全操作信息通知。 据了解,当前NOTAM系统太过老旧,但对其进行现代化改造又很痛苦,美国联邦航空局一直在努力更新NOTAM,预计两年内无法完成。而数据库是IT系统改造中的重中之重,正常运转时很容易让人忽视它的存在,但是一旦
在构建容灾系统所涉及的诸多要素中,数据复制技术是基础,只有保证了数据的安全可用,应用或是业务的恢复才有可能。正常情况下系统的各种应用在数据中心运行,数据存放在数据中心和灾难备份中心两地保存。当灾难发生时,使用备份数据对工作系统进行恢复或将应用切换到备份中心。
本文叙述了高校业务系统及数据容灾备份方案 2.0 的应用探索和实践,介绍了数据库双活、应用秒级容灾和数据级实时备份、虚拟化平台备份等综合性创新应用,满足当前教育信息化 2.0 行动计划的信息安全需求,助力高校在等保、容灾、数据同步等方面的发展。
第一次听到RPO,我以为是专门割韭菜的IPO,加上说这话的人不断对我挤眉弄眼,以至于我手抖,怎么搜都搜不到这个技术名词。
导语 本文介绍了 Kafka 跨数据中心的两种部署方式,简要分析两种方式下的不同架构以及优缺点,对这些架构可能碰到的问题也提供了一些解决思路;同时也说明了 Kafka 跨数据中心部署的社区解决方案和商业化解决方案。 背景 Kafka 作为世界上最流行的消息中间件之一,一般是客户数据链路中的核心组件,高可用性是客户很关注的因素。近期在对接云上客户时发现,客户对 Kafka 的高可用也有需求,行业架构师也想了解 Kafka 高可用的方案细节;有些客户是需要云上 Kafka 的高可用能力,有些客户需要 IDC
HyperBDR®云容灾工具是基于云原生的业务级别容灾工具。利用块级别复制技术,极大提高了数据备份的效率,是业务连续性保障的基础。
两地三中心 随着IT应用的快速发展,金融,银行,政府等越来越多的用户要求核心业务7*24不断网,不断电持续运行,进而出现了两地三中心的方案,是一些大型企业因为大自然的灾害而在同城选择两个机房异地选择一个机房而组成的称两地三中心,这样的方案具备高可用和灾难备份能力。 同城双机房指的是在同一个城市或相邻的城市建立两个相同的系统,双中心具备等同的业务处理能力并通过高速链路实时数据同步,日常情况下可同时分担业务及管理系统的运行,并可切换运行,当意外的情况下基本在保证不丢失数据的情况下可进行灾备应急切换,保证业务的连续性, 异地灾备是考虑因为特殊的自然现象而在外地做的备份,实现双机房的数据备份,当同城机房因为自然灾害等出现意外情况,异地灾备的备份数据可以进行恢复,以保证数据的完整性。 目前针对两地三中心的需求方案,UCACHE灾备云利用自身的华北IDC数据中心优势以及配套的软硬件帮企业实现了低成本,灵活的方案优势,减少了企业前期的大量投资以及后期的维护成本费用。
互联网常见的高可用手段。比如服务冗余部署、异步化设计、负载均衡、服务限流降级熔断、架构拆分、服务治理、分布式存储等等,今天主要是一起聊下,多机房部署的灾备架构模式,来确保服务的高可用。
将异地备份的频度提升为实时备份,且需要制定数据的备份策略和恢复策略、备份程序和恢复程序等。
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
2、确保应用高可用性,消除计划外的停机时间,减少计划外的停机时间,提高业务连续性。
以oracle 11G版本为准进行解析 Data Guard Architecture Overview (Data Guard架构概述) Data Guard provides the management, monitoring, and automation software to create and maintain one or more synchronized copies of a production database to protect Oracle data from failures, disasters, human error, and data corruptions while providing high availability for mission critical applications. Data Guard is included with Oracle Database Enterprise Edition. Data Guard提供管理,监视和自动化软件,用于创建和维护生产数据库的一个或多个同步副本,以保护Oracle数据免受故障,灾难,人为错误和数据损坏,同时为关键任务应用程序提供高可用性。 Data Guard包含在Oracle数据库企业版中。 Active Data Guard Functionality Overview (Active Data Guard功能概述) Active Data Guard is an option license for Oracle Database Enterprise Edition. Active Data Guard enables advanced capabilities that that extend basic Data Guard functionality. These include:
疫情压力下,广交会63年来首次整体搬上“云端”,首次整体搬上“云端”的广交会运行平稳,服务了217个国家和地区的采购商观展。作为本届广交会的技术服务商,腾讯为广交会网上举办提供整体技术支持、平台研发服务与云资源支撑。
近日,互联港湾携手网银互联再次打造双活数据中心,分别将北京铁通IDC—T3中心和杭州下沙MDC数据中心作为合作机房,在全国布局上又添一笔,进一步实现南北互通。 传统灾备系统通常采取IOE架构,通过数据库的数据复制或存储的数据复制技术,在广域网上实现数据的复制,具有很强的通用性。但这种数据层面的备份强调的是数据安全,可能产生很大的RPO和RTO值,即丢失大量数据或灾难恢复时间过长,给企业造成巨大损失。因此,尽管投入了大量的日常维护成本,但为了避免数据丢失,企业只有在万不得已的情
在参与公司几个多数据中心项目的容灾架构设计后,积累了一些高可用和多数据中心容灾的一些思考,总结和分享出来希望一起和大家学习。
为了给客户提供更优质、更可靠的服务,金蝶业务团队从2022年开始,就已经在腾讯云售后专家的协助下,陆续对业务系统完成双活改造。改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。本次演练主要针对金蝶小微业务线(精斗云&KIS云),涉及10大业务故障场景,是财务、新零售、电商等领域行业提高系统可用性的一次最佳实践。
了解业务连续性计划制定的批准实施工作的内容并理解风险降低风险转移风险规避和风险接受四种风险处置方式。
领取专属 10元无门槛券
手把手带您无忧上云